联通世界的 Google Translate

特稿

2012-05-02 14:30

全球化进程的加速以及国际间交流的日趋频繁,人们对翻译的需求有增无减,即时翻译服务也应运而生,相对打破了语言之间的障碍。

Google 要整理和开放全球的信息,就不能回避这一领域。Google Translate 算是 Google 的传统项目了,这项支持世界 58 种语言相互翻译的服务,不仅提供专门翻译网页,支持 “文本转换为语音” 功能(voice-to-text),还利用产品体系进行纵向拓展,如整合 Chrome 、推出移动 App ,今天又推出自动邮件翻译功能

每日翻译 100 万册图书

毫无疑问,Google Translate 是世界上最流行的即时翻译服务。据上周 PCWorld 报道,Google Translate 每月的活跃用户突破 2 亿,移动版用户较去年翻了两番。令人惊讶的是,其海外需求极大,92% 以上的翻译流量来自美国以外的市场。

曾就职 DARPA 的 Google Translate 研究员 Franz Och 用这样一段话形容它的流行:

“每天由 Google Translate 翻译的文本相当于 100 万册图书。换句话说,全球专业译者一年的翻译量,我们只在区区一天内就完成了。据此估计,地球上大部分的翻译活动都是由 Google Translate 完成的。”

一些简史

“打破语言的隔阂”——这是一篇 Och 发表在 Google Translate 官方博客一篇文章的标题,文章介绍了一些 Google Translate 的发展史。

Google Translate 项目缘起 2001 年,当时仅提供 9 种语音互译的服务。尽管它采用了当时世界领先的机器翻译(Machine-Translation),但它翻译 “质量不高,几年来也没有什么提高。”

2003 年 Och 加入的时候,团队决心改变这一糟糕的境况。他们发现了一种数据驱动的方法——通过收集大量网络语言资源进行辅助。但起初系统运行非常慢,1000 个句子的翻译需要 40 个小时和 1000 台电脑才能完成。

随后团队开始攻克速度问题。2006 年,Google Translate 改进了 “统计机器翻译”(statistical machine translation)。此后六年,团队一直集中于核心翻译质量和语言覆盖。

原理

Google Translate 的核心技术在于 “统计机器翻译”,基本思想是通过对大量平行语料进行统计分析,构建统计翻译模型,进而使用此模型进行翻译。简单来说,Google Translate 在生成译文时,会在大量人工翻译的文档中查找各种模型,进行合理的猜测,从而得到恰当的翻译。

之所以采用 “统计翻译模型” 的一个重要原因就是 Google 的云计算架构。机器翻译需要海量的数据存储空间以及高效的运算能力,而 Google 拥有 GoogleMapReduce(分布式计算系统)和 BigTable(分布式存储系统),恰好满足了这两方面需求。

由于机器操作,Google Translate 对某种特定语言可供分析的人工翻译文档越多,译文的质量就越高。这也解释了为何翻译的精准度会因语言的不同而有所差异。

Google Translate 通常会提供备选翻译,当用户点击它时,Google 会记下反馈。此外,用户还可以 “提交一个更好的翻译”。通过这种 “众包” 的方式,Google Translate 不断改进该语境的翻译质量。当然,这种方式的缺点也是显而易见的:当足够多的人恶意纠正正确的翻译时,它就会起到反效果。

语言即界面

ReadWriteWeb 在一篇文章中提到这样一个观点——“语言即界面”。与图形化窗口、按钮没有不同,语言是计算机界面的基础部分。当然另一方面,不同的语言即不同的界面也构成了交互的障碍。有数据表明,世界上超过 99% 的人们日常沟通都要靠母语,但在互联网上,英文信息占了 80% ,在剩下的 20% 中,法语占其中的大约 5%,中文等其他语言信息所占比例甚微,至于其中的精华信息,更是少之又少。当人们有条件将不同的语言翻译成他们的母语时,他们就能够接触他们未及的世界。

Google 提供免费翻译服务的价值是显而易见的:它翻译的数据越多,翻译质量就越高,进而吸引更多用户,Google 赚的钱也就越多。

模糊语言的界限

当然,Google Translate 并不完美,很低级搞笑的翻译纰漏时有出现。但这并不能阻止 Google Translate 试图 “统一界面” 打造一个语言大同的梦想。在今年 2 月份,Google Translate 加入了对 “世界语”(Esperanto)的支持,这是一门由波兰籍犹太人柴门霍夫博士(L.L.Zamenhof)于 1887 年在印欧语系的基础上创立的一种国际辅助语,旨在消除国际交往中的语言障碍,被誉为 “国际普通话”。尽管时至今日,该语使用者寥寥无几。Google Translate 此举显然是在传递更多的象征意义——两者都是基于为语言不通的人搭建沟通的桥梁,联通这个世界。

美国发明家、未来学家 Ray Kurzweil 最近在接受《赫芬顿邮报》的采访时预言,到 2029 年机器翻译的质量将达到人工翻译的水平。尽管对这一论断还存有争议,但不妨碍我们畅想一个语言界限被模糊的理想化世界。Google Translate 试图扮演整合语言信息的角色,这正是 Google 始终秉持的信条,也是它的产品战略。

“我们畅想着,在未来世界上每个人都可以互相分享信息,无论你在哪里,说什么语言。”

Och 如是说。

题图来自 flickr

登录,参与讨论前请先登录

评论在审核通过后将对所有人可见

正在加载中