语音识别技术将开启另一扇大门?

特稿

2011-06-02 19:38

语音识别技术拥有足够高的评价,但一直以来缺乏足够的表现。由于无法精确的识别人类语音的表达,使人们在使用语音识别技术的时候总会遇上各种各样的错误,结果就是人们无法通过语音直接打电话和写短信。不过,这一切都有可能改变,关键词又是苹果(Apple)。

苹果去年 4 月收购一家名为 Siri 的公司,该公司之前推出了一个应用,能够识别人们的语音,针对人们提出的问题进行回答。Siri 所使用的语音识别技术由在该领域浸淫已久的 Nuance  所开发的。此后,苹果与 Nuance 一直保持接触,并取得了专利授权,现在大家都知道了,苹果将在 iOS 5 整合名为 Dragon 的语音识别技术。因此,iOS 5 也许会内建语音识别接口(API)供开发者调用。

而这,有可能让苹果开启下一扇人机交互的大门。

语音识别技术已经足够成熟

Dragon 语音识别引擎是相当的成熟,在 iOS 平台上使用该引擎的 Dragon Dictionary 以极高的识别精确度,效果让人惊异。而 Android 平台上由 Nuance 推出的 FlexT9,即使售价为 5 美元都收到 1100 份评论,以及平均 4 颗星的评价。可见语音识别技术已经迈向成熟,能耐得住市场的考验。

Google 也注意到语音识别技术的潜力。之前 Google 从 Nuance 中挖来了一位创始人,在 Nuance 工作十年之久的专家。如今用于 Android 上的语音识别技术被 Slate 评价为 “确实可用”。即使拐着弯问的问题也难不倒它,比如说一英里等于多少埃(计量单位 1 埃 = 1.0 × 10 -10 米)这样。

在手机越变越大,触控屏越来越流行的情况下,语音识别技术让人能够用一只手来操作手机,提供了方便。至少,有短信来的时候不必痛苦的按虚拟键盘,只需要动动嘴巴就行了。

苹果知道如何让用户接受新的操控方式

尽管语音识别技术已经足够成熟,但未必就能让如今的手机更加易用。因为新的操作方式等于改变用户过往的习惯,这等于用户过往的经验全不管用。假如手机提供了语音识别功能,但用户都不去用的话,这项技术即使再革新也没有意义。

因此 Nuance 引导 FlexT9 的用户到一系列的视频教程去,让用户明白如何操作。作为反例,Slate 指出 Android 的语音识别技术不够人性,用户需要念出 “逗号”、“句号” 才能输入标点符号。

而苹果能够让消费者轻易地接受新的科技:第一个 iPhone 广告其实是一个教程,消费者从广告中就学会如何利用 iPhone 上网、收发邮件以及搜索附近的商店。最终,消费者接受了触摸操控,也成就了 iPhone 的辉煌。

如今,语音识别技术也是一种新的操控方式,而苹果是去做推广的厂商。至少苹果不会只通过枯燥的视频教程来让用户学会如何用语音来操控手机。

苹果是用户体验大师

一个产品有成熟的技术,和成功的推广,也未必能够留住用户的心。

在 iPhone 之前已经有很多款使用触控屏的手机出现了,但是苹果的长处就是让科技变得简单易用,贴合人性。这使 iPhone 完成了手机的设计上的革命。现在人们已经忘却了实体键盘,忘却了轨迹球,取而代之的是一整块触控屏。

通过深度整合语音识别技术,相信苹果还能让变革再一次发生,至少可以让人们对着手机说几句话就能发一条短信或浏览网页。而对于开发者来说,语音识别技术无疑开启另一扇大门,让他们的应用设计更具有想象力。

我们仍然无法得知苹果和 Nuance 合作的具体内容,但我们有理由相信苹果能够成功的把语音识别技术带入移动领域。

Via GigaOM

登录,参与讨论前请先登录

评论在审核通过后将对所有人可见

正在加载中