Xight:“用眼神切水果”的视线追踪系统【更新视频】
这几天,微软围绕“创新”举办了多场活动,BizSpark 总决赛、北大百年讲堂“纵论创新”演讲、“创新杯”项目展示、“创新·未来”论坛媒体沟通会,再往前追溯还有“衣食住行”Windwos Phone 官方开发经验传授会……北大讲堂更是请到 CEO 鲍尔默(Steve Ballmer)前来为开发者助阵。
在一堆密集活动中,5 月 23 日下午在北大讲堂外看到的 Xight 这个项目让人心里非常欣喜。
Xight 是一个硬件创新项目,来自武汉大学软件工程系大三学生作品。具体来讲,它是通过追踪人眼视线,用“眼神”来操作电脑、输入文字、玩游戏等(稍后在文末更新我用“眼神”切水果的视频)。
两个创始人杨硕(题图左一)和李今做的事情是写底层算法,让 Xight“视线追踪系统”可以捕捉和跟踪人们的视线,实现通过“眼神”来操作电脑上的程序。比如我用 Xight 来玩《水果忍者》游戏,那么只需要水果一出现你“盯住”它就可以完成“切水果”这个动作了。而在 Office 中,你也可以通过“眼神”,在特制的键盘上输入文字,精确度是 3 毫米。
实际体验中,在《水果忍者》“禅”模式下,我第一回合切得 103 分(手机上用手切水果平时是 200 分左右),第二回合切得 80 分。两个回合的体验给我的感触是:一,真的可以用眼神来替代手的操作(视频中我的手是闲置的);二,略有延迟,跟踪得不及时;三,头部要固定在一个区间内被摄像头捕捉到,离开这个区间后程序就不能识别人的视线;四,开始把玩前需要进行 25 个视频点的“视线追踪鉴定”,显得繁琐,入门门槛高。
李今告诉我下一个版本会有很大改进,包括我所感受到的几个问题。接下来的一个多月时间,Xight 将推出 2.0 版本产品——今年 7 月,他们将代表中国大陆参加悉尼举办的“创新杯”总决赛,“那时候的产品会有一个成熟的原型,外观设计以及底层技术方面”。
Xight 团队现在有 7 个人,杨硕和李今是技术骨干,底层算法两人每人完成一半。在采访中李今夸杨硕“悟性好”,杨硕夸李今“经验足”。杨硕 1989 年生人,湖北宜昌人,学习成绩在本专业 200 多人中名列榜首,拿过国家奖学金,但他极不认同书呆子式的读书方法,“考高分容易,但如果不愿意花功夫学新东西,不学了来用,很没意思”。李今是北京人,1990 年生人,在武大学习成绩算不上拔尖,但玩的东西多,经验丰富。“2010 年的时候就开始关注‘计算机视觉’这门学科了,那年 9 月报名参加了 2011 年的微软‘创新杯’,得了个第二名。”今年的创新杯是杨硕第一次参加,两人拿了“软件设计”项目特等奖,7 月要去澳大利亚代表中国参赛。
此次来北京参加微软“创新·未来”论坛的,除了杨硕和李今外,还有另外两位队友:张惠婷,杨吉。两位女生都是 90 后,张惠婷负责市场调查、文案、论文专利文件撰写等工作;杨吉负责演讲稿、对外联络方面的工作。另外三名未到北京的,是经管学院的朋友,“主要负责商业计划书方面的工作”。
除了学生队员外,Xight 还有一位教授提供一些硬件方面的资助。在我问到微软产品研发过程直到什么作用时,李今说“他们现阶段更多的是比赛流程方面的一些指导”。李今和杨硕都盛赞微软“创新杯”活动——“不会像别的活动一样,方向定得很死,微软的活动是鼓励你解决问题,任何点子都可以”(今年是“创新杯”第十年)。
李今说产生 Xight 这个点子是在去年 9 月份,“当初只是喜欢做这个事情,做到一半,发现可以参加‘创新杯’,就开始认真写算法;今年 2 月底到 4 月底,用两个月完成了算法——比赛前一天晚上还在调试”。我问为什么他们能够把想法变为现实,李今和杨硕都互相谦虚,一个夸对方“理解能力强”,一个夸对方“有经验”。李今说主要还是兴趣,两个人都非常喜欢“计算机视觉”科学,“比如分析路况,比如停车场识别车牌信息,比如 ATM 机摄像头,比如 Android 4.0 的人脸识别……都应用计算机视觉科学”。
Xight 未来的愿景是打造一套新的人机交互系统。鼠标没了,触控板没了,都转化为用眼睛来交流——事实上,我们平时也是由眼睛将捕获的指令交给手指或声带,“为什么不直接交给眼睛来处理呢”。杨硕说现在的 BOM 成本也就几十块钱(视摄像头质量而定),精确度方面还有提升的空间,但并不需要一味追求。“我们现在是 3 毫米精度,为什么要再精确到 0.01 毫米呢,现在看来是没有必要的。”
目前国外的同类产品有一个 Tobii,这家公司成立于 2001 年,专注于眼睛控制和视线跟踪,今年 3 月刚刚获得英特尔资本 2100 万美元投资,此前在 2007 年和 2009 年分别获得 1400 万和 1600 万美元投资。李今说也是做了产品后,才发现有一家 Tobii 这样的公司,“他们已经很‘大’了。我们有自己的技术,现在正在为我们的算法申请专利。不过我们的产品很便宜,最终市场价可能在几百块钱人民币,这是我们很大的优势。”
我问 Xight 未来会有什么困难。李今说技术上会有我上面体验到的那些(校对视线过程繁琐、跟踪延迟、视线捕捉区过小),还有比如如何辨别瞳孔是眨眼还是半闭,“瞳孔反射光在眼镜上不是很清楚,会被干扰,不知道哪个是真正的光源”。而杨硕则说人们能不能接受这种(眼睛)交互方式会是未来比较大的挑战。
我问杨硕和李今未来会不会成立公司,他们说这是已经在筹划中的事情。但对于公司接受收购与否的态度,两人都很理想主义:如果有人买下公司来,能够把事情做得更好,继续往前推进,我们是不排斥收购的;否则就由我们自己来做,多少钱都不卖”。目前 Xight 也开始接触一些风投,“但由于现在的产品过于初期,自己没有优势,等第二代产品出来之后,再来谈这些罢,现在只想着在接下来的一个阶段把产品做好。”
由于杨硕和李今都是大学学生,我尝试问他们有没有崇拜的对象,出乎意料的是,杨硕直接告诉我“没有”,他反问我“什么叫崇拜”。而李今告诉我他崇拜的是乔布斯——“他非常有眼光,知道一个产品做完之后会达到什么效果,他能团结一个公司的所有人。他是一个很牛的产品经理”。
(Youku)