机器翻译这么难用,我们还是离不开它
全世界共有超过 6000 种语言,科技巨头们正在尝试用新技术弥合人与人之间的沟通障碍。但是,机器翻译的体验实在是太糟糕了。
上个月,微软旗下的 Skype 推出了一项“实时翻译”的功能,英语和西班牙语的用户交流时,Skype 会自动翻译,并语音播送。
如今,类似的功能也成为 Google 要攻下的城池:移动应用 Google Translate 将增加支持语种达 90 种,同时针对个别语言支持“语音翻译”——用语音输入 A 语言,应用翻译出 B 语言的文本。
当然,这样的翻译效果并不如你所愿,即便是纯文本版的 Google Translate 也常常伴生着语法、语序的错误。Skype 的实时翻译同样如此,从宣传片的使用演示中看,这项功能要配合耳机,整个过程仿佛是两个接线员在用对讲机。
包括 Google Translate 的机器翻译,局限性在于机器算法和语言文学性的差异。机器翻译无法提供准确的译文,它经常忽略语境、上下文来翻译词汇,也并不遵守语法。机器翻译,现在仍然处在“词典”的阶段。
机器翻译算法基于统计分析,重在翻译效率而非准确性,但是语言本身具有“人性”,包括语法、语义、情感都无法被算法翻译。
尽管如此,人们还是迫切的需要翻译应用。Google Translate 的下载量已经超过 1 亿,月活跃用户达到 5 亿。机器翻译的背后是一个巨大的市场。包括 Facebook、微软在内的巨头都进行着翻译机器的项目。
可以预见,未来的机器翻译,会在准确性上大大提升,这就依靠一个庞大的数据库,来使机器不断学习,让机器更加理解人。
在形式上,未来的翻译也将更为智能化,比如即时翻译,类似现在的人工同声传译。Skype 的实时翻译虽然在效率上有待提高,但是却提供了一个奇妙的前景,机器翻译的最终使命,就是消除语种的差异。
以数据和算法方式做翻译可以让翻译系统会随着数据的积累而不断地学习改进,但是这里又产生了一个新的问题,如果数据库积累用户的语言内容和习惯,势必涉及隐私。
语言研究机构 Hypervoice Consortium 表示,仅仅有 1% 的用户愿意贡献自己的使用数据,来帮助翻译机器学习。大多数的用户则希望,翻译机器就像 Siri 一样,将数据封闭,只为自己服务。
题图来自 CNET