中文计算的尴尬 (《华夏文摘》版,儿童不宜)
(《华夏文摘》版,发表于 http://archives.cnd.org/HXWK/author/LAO-Wan/kd030813-3.gb.html )
2003年8月10日
为装一哥们写的《我爱背单词》软件,专门从国内带了一套中文Win 98。没想到望着满屏中文,每每要冥思苦想才能猜出个大概,甚至有时急得满 头大汗。倒不是我母语退化厉害,毕竟每天有4个小时泡在中文网站上(此乃急需该软件之一大原因)。以微软的财大气粗,为何搞不好汉化?先听我讲个故事:
在北京上学时,一同学从微软揽了个活:翻译帮助文件。微软提供了一个标准英译汉对照表。我古道热肠,写了个程序参照此表把英文词尽量都替换成中 文。为尽大限度地自动化,该程序允许一些常见的词尾变化,如:carry ->carried,carries,carrying;book -> booked,books,booking;……照认不误。这样,通常只需手工调调结果的顺序再稍作润色,银子就到手了。一次译文中出现一个“单元状 态”,和上下文毫不搭界。左看右看不懂,只好找来原文一对,却是United States(美国)。原来单词表中有unit(单元)和state(状 态),但没有united或United States。我的程序“智能”地把United当作unit的变形了。估计中文Win 98的界面就有我的程 序的功劳。自作自受吧。
土人不只我一个。大伙还记得“XX之星”吧。当年其号称可以“动态翻译”:将英文界面实时替换成中文。其实不过是简单的一对一单词替 换,字典还特小。比如某对话框曰:“做你want到继续?”你可知何意?“Do you want to continue”是也。(还好do没有翻成 “干”啦。)
95年夏天在中关村一家公司打工,写中文全文检索引擎。产品的一个卖点是“智能分词”:英文里单词都是用空格和标点隔开的,分得一清 二楚。汉语里词与词之间没有分隔符,全靠上下文来分开。我们的软件号称可以自动分词,这样查“日本”就不会找出“今日本公司放假”了。虽说正确率还可以, 但毕竟到不了100%,于是有了下面这个笑话:
因为想把产品卖给人民日报,我们用的测试数据是该报十年来的全部文章。很自然地,我查了有无含“性交”的文章(测试嘛,就是要刁、 钻、难、狠。)。嘿,还真让我找到了!忙把经理叫来奇文共赏,一看却是“XX单位积极推行住房改革,职工只需一次性交款X万元即可获得房屋产权。”我顿时 沦为全公司的笑柄。其实也不算错啦,“一次性交款”也可以理解成“一次-性交-的-费用”嘛!(其实“一次交款”不就行了吗?非加个“性”字不显得正式是 吧!中文里“性”字的滥用由来已久,什么“XX热心参加学校的各种集体性活动”、“XXX是群众性体育活动积极分子”、“他领导了一场震惊世界的全国性罢 工”,就是把一样东西弄得看上去不是那么回事。解决这个问题还需要大家的长期性努力啊。)
96年,在北京另一家公司打工,为中国新闻社做一套采编系统。其中一个功能是显示稿件简要信息。一天猛然看见一条标题“……四川省长 谢世”。将全文调出一看,却是“……四川省长谢世杰发表重要讲话”云云。标题太长,在显示时被截断了。这个故事的教训是:写软件千万要小心别写出反标。 (现在的小孩多半不清楚什么是“反标”了。是反动标语的意思,可不是标点打反了。)
行文至此,老板来信要大家积极参加公益活动,比如到新闻组发帖子帮助客户解决技术问题。按要求,每个帖子都要附上以下告示: “This posting is provided “AS IS”with no warranties,and confers no rights.”如果是中文新闻组,就要附公司提供的标准翻译:“本贴子以‘现状’提供且没有任何担保,同时也没有授予任何权利”。我的天,这还是中文 吗?
“本帖仅供参考,一切后果自负”如何?

0 Comments:
发表评论
<< Home