下载客户端
下载客户端
关于我们 寻求报道 加入我们
新创 2016-11-03 15:18

微软这次抢先 Google,要在广东和香港大涨真爱粉

想节棱,棱胎棱。

一头雾水?请看以下图片:

gutianle截图来自广告视频

想起了吗?

没错,这就是曾经传遍网络的某轮胎广告,里面生动地体现了以粤语为母语人民的“煲冬瓜”(备注:“煲冬瓜”=“普通话”,广东和香港人用于自嘲普通话不标准的说法)。当然,古天乐现在的普通话已经进步很多了,但微软还是决定要将人类从“煲冬瓜”里解救出来。同时,这也是微软要打破世界语言隔阂的其中一个举动。

can-1电影《家有喜事 1992》剧照,截图来自电影

前段时间,微软亚洲研究院在其官网上宣布微软翻译(Microsoft Translator)正式发布粤语文本翻译功能, 并已集成到必应搜索和翻译、Microsoft Office、SharePoint、Cortana(微软小娜)和 Yammer。

事不宜迟,ifanr(微信号 ifanr) 现在和大家一起测试一下。

Level 1 —— 词汇题:表情包

Level 1 的测试选择了微信表情包“广东青年粤语表情”,其中包括了“核突”、“靓爆镜”、“细路”等不少有看港剧的非粤语母语者都能看懂的词语。测试词汇合计 14 个,结果如下:

(正确部分)cantonese test

(无法翻译部分)

cantonese test

翻译测试正确率:50%。(翻不出来的,都会保持原来的写法。)

根据微软官网介绍,微软翻译基于平行语料库,且应用了机器学习技术和应用统计学,翻译“利用单词的整个语境,而非单个单词来为整句提供最佳的译文。” 因此,爱范儿(微信号 ifanr)将为原来翻译不正确的词语提供了语境,再试一次:

para-test

在本次测试中,微软翻译在语境中对“靓爆镜”、“无阴功“、“锡晒距”和“心淡”的理解都基本正确。可见语境对于提高理解还是有帮助的。

1855897200《英雄本色》剧照,动图来自电影

第一轮得分:85。

Level 2 —— 阅读题:香港娱乐新闻

其中一个粤语口语文本出现较频繁的情景是香港娱乐新闻,因此 2 级测试截取了难度中等的新闻报道测试,结果如下:

para-test-2

总体而言,翻译文本意思基本通畅,只是在某些口语化特别强的词语翻译上有点奇怪。例如:“精灵 BB”,语境中意思应为形容人的精神状态很好,看起来聪明,反应快。

但这个错误真不可以怪微软,因为这个用法包含了两个知识点:1. “精灵”在粤语中为不同音多义词,其一可用于指神话中出现的生物“精灵”,和普通话一样;其二为形容人看起来或做事很机智;2. 粤语中喜爱用“BB”搭配在形容词和名词后用于表达亲昵,并无实义。

从另一个角度看来,微软翻译在这个测试中,不少粤语用词的处理都比较好,例如:“查实”=“其实”、“嗲幾句”=“闲聊几句”;而“咁”、“嘅”、“喺”、“噚晚”等高频用词的翻译表现更是稳定。

第二轮得分:80。

Level 3 —— 翻译题:地道地“说”粤语

既然微软翻译的成段粤语-普通话翻译表现不错,那普通话译粤语呢?

para-test-3

从测试结果看来,微软翻译“说”粤语的能力基本和反向翻译的水平相符,可以将一些高频词如“是”、“的”、“还”等转化为粤语口语用法。

但翻译同一词语在不同语段里翻译效果不一的现象。例如,在测试第二段中,原本第一段保留的“爱范儿”就成了“钟意范儿”、“无人机”也成了“冇人机”。这呼应了之前提及的依赖语境翻译的说法,但同时也体现其不准确性。因此,还是建议学习粤语的用户在参考时要谨慎。

第三轮得分:70。

终极 BOSS —— 奥赛题:口语+脏话搭配测试

(说明:下文涉及不雅语言,目的仅用于测试,不建议模仿)

2886807361145460067电影《九品芝麻官》剧照,动图来自电影

人在学习新语言的时候,经常学得最快记得最牢的都是脏话,有文章表明这是出于社交需求。那暂无社交需求微软翻译又是否如此呢?

foul-languaue-test

测试表明,平行语料库里有包含脏话素材,因此系统可以辨认得出脏话词组,但还是无法以合符说话习惯的方式来组织句子。

第四轮得分:60。

测试结论

微软四轮综合得分:75.75 分。

从该次测试看来,微软的表现还是非常不错的。虽然现阶段可翻译的部分还局限于单个词语以及一些常用衔接词,但鉴于粤语本质上为一种口语(粤语的书面翻译对应类别为简体字与繁体字翻译),用法特别灵活,所以这样的水平已非常不错。相信日后在语料库不断丰富以及长期机器学习后,效果必定会更好。

Google 在去年 2 月的时候,已经向用户发出邀请到翻译社区参与粤语翻译的准备工作,但没想到这次居然让微软抢先一步面世。不过无论如何,推出粤语翻译功能只是时间的问题。因为根据人机通过语音交互的大趋势,粤语这个在国内有 5500 万人,国外 2000 万人使用的口语,还是非常值得去突破。

而且,微软说了,要 “永久打破语言的障碍,让人们实现随时随地的多语言沟通。” 那是要让人们可以自由地使用自己想说的语言无障碍地沟通。

课外活动:和爱范儿一起来玩

调戏微软粤语翻译攻略:

  1. 打开必应翻译
  2. 选择“粤语(繁体中文)”(如果是粤语翻普通话,就在左边对话框选择粤语;反之亦然);
  3. 手动输入粤语的用户需要将输入法调为繁体字输入法(否则表现不稳定哦);
  4. 在左边框输入要翻译的文本,点击“翻译”,OK!

cantones test

欢迎各位对粤语,或者调戏微软翻译有兴趣的朋友,加入我们的“微软粤语翻译群”,分享大家给微软出的考试题。届时,我们会精选大家分享的“微软粤语考题”到本文章上。

加入方式:关注 ifanr(微信号 ifanr),输入“粤语”,扫码入群一起玩。

t01ca5a54bed2b87129电影《家有喜事 1992》剧照,动图来自电影截图

题图来自微软官网

有好的产品或者项目希望我们报道,猛戳这里 寻求报道

文章评论(-)
后参与讨论
正在加载中

大众宣布退出 WRC:失业的世界冠军,没落的越野赛事

2016-11-03 16:02下一篇

小米无人机双 11 正式发售,它的竞争对手究竟是谁?

2016-11-03 15:18上一篇