黄姓编辑第三天:你也许想不到,基因技术的关键是数据

公司

2014-09-19 18:16

造孩子很简单,生孩子可不容易!

夜再一次深了,威斯汀酒店又出现了我们熟悉的身影——黄姓编辑。

这一次黄姓编辑手上拿着的,不是之前他常用的杜 X 斯,而是早孕试纸,显示出了两条红色杠杠,阳性。而某位还在办公室加班的某位程序员正拿着手里的针冷笑着:套套的韧性再好,再薄有什么用,还不是怕一根细细的针。

一向谨小慎微,认真做好保护措施的黄姓编辑无奈,只好领着姑娘去医院做进一步的确认检查。到了医院就是另外一回事了,虽然黄编带女友去的是市区最好的医院,但是该科室还是聚集了不少的准妈妈。因为有着共同话题,这些准妈妈们七嘴八舌地讨论开了,什么产前检查啊,唐氏综合症啊,地中海贫血啊。因为职业敏感,在等待区无聊中的黄编渐渐被这些话题吸引。

对每一对父母而言,是绝对不希望自己的孩子患有唐氏综合症这类先天性疾病的,由于各种原因,但是这类疾病发病率却不低。

黄姓编辑想起曾经在一次大会上的所见所闻,华大基因董事长汪建曾说:

“地中海贫血完全是可以预防的,我们检查准确率是 99.9%,之所以叫地中海贫血是在地中海地区发现的,但是地中海已经没有地中海贫血了,地中海国家能做到,我们做不到吗?偏偏中国变成世界上最大的地中海贫血的国家!广东省、广西壮族自治区有超过 10% 的潜在发病率,3%—4% 的孩子或轻或重地患有地中海贫血。”

和地中海贫血类似,唐氏综合症也可以用基因检测方法在妊娠初期进行检查,华大基因也有过 40 万例的检查案例,准确率可以超过 99.9%。

汪建当时说,如果他们能够在全市广泛推展这样的项目,深圳市将成为全世界第一个没有唐氏综合症的城市。

基因技术很独立?它的影响和发展超乎想象

基因,是一个我们既陌生有熟悉的技术名词。中外有不少机构和企业正在努力在此钻研,比如这次福布斯评选的中美创新 10 人中,直接从事基因研究的就有两人,华大基因董事长汪建,和 Illumina CEO 杰伊·弗拉特利(Jay Flatley)。

具有传奇色彩的英特尔(Intel)联合创始人兼董事长戈登·摩尔(Gordon Moore)在 1965 年担任研究员时提出了一个愿景,结果这一愿景推动了上世纪 80 和 90 年代的 PC 革命。

摩尔认为,当价格不变时,集成电路上可容纳的晶体管数目,约每隔 18 个月(两年)便会增加一倍,性能也将提升一倍。

过去的 13 年里,DNA 测序费用的下降速度是摩尔定律的 1000 倍,从每个人类基因组 1 亿美元降到了仅需 1000 美元。正好 Illumina 在八年前成为占据主导地位的 DNA 测序设备制造商,在其中起到了巨大的推动作用。而华大基因也在前年通过收购获得 DNA 测序仪的研发生产能力。

虽然里面存在着竞争关系,但是不管是 Illumina,还是华大基因,其愿景都比较一致,让基因测序的门槛更低一些,低到人人都能承受得起。到目前为止,每当测序费用下降五到十倍,市场就会被颠覆一次。基因测序设备的价格可能降至 1 万美元,这将带来全新的市场和疗法。

前不久,汪建透露,他和一直致力于医药慈善事业的比尔·盖茨谈了 5 次,希望建大型生命健康相关的数据中心,为全球重大疾病研究的科学家提供基本的组学水平上的基础数据,建立一套高效率的人工智能分析体系。

这将对疾病的预测预防,对未来精准的诊断治疗,为药物的研发带来革命性的变化。

至此,基因和数据中心技术的结合其实指向出了一个大的科技趋势,即 BT(生物技术)和 IT(信息技术)的融合趋势。

novosti-ria-solovjev.si

数据太多?超级计算机来帮忙

目前,华大基因也正在和腾讯、Google,英特尔等 IT 行业巨头的合作或谈判。汪建相信,这个大数据时代可控的数据采集成本和更强的超级计算机会给基因技术带来的机会。

“每个人约有 1 万亿个细胞,每个细胞里面都有 23 对染色体,这些染色体中包含的 DNA 由 ATCG 不同碱基序列构成,数量共计达 30 亿,这些基因序列就是破解人类遗传信息奥秘的钥匙。”

华大基因高性能计算研发主管王丙强博士介绍到,基因测序工作就是要通过大规模的计算分析从海量的数据信息中辨识载有的基因及其序列,最终获取遗传信息。

海量、复杂、多变的数据计算需求一直是横越在前行道路上的一道鸿沟。随着多年来超级计算机的不断发展,高性能计算在基因测序发展上发挥了重大的助推作用。

人类基因组计划(human genome project, HGP)旨在绘制人类基因组图谱最终达到破译人类遗传信息目的,该计划于 1990 年正式启动,这也正是催生华大基因成立的重要原因。庞大而复杂的海量数据早已超出当时人类计算的能力,要想及时且准确地大规模处理这些数据就不得不依靠计算机的高性能计算。

自 1999 年成立以来,华大基因成功完成了国际人类基因组计划 “中国部分”,在其中承担了绝大部分工作。到今天,华大基因目前已在深圳、香港、北京和武汉等地建立多个大型生物信息超级计算中心,总峰值计算能力达到 200T flops(每秒浮点运算),总内存容量达到 35TB,总存储能力达到 16PB。

在前年,华大基因还和 GE 全球研究中心、美国国防部高性能计算现代化项目一道,获得了 2012 年国际超级计算大会的 “高性能计算创新优秀奖”。

超级计算机固然计算能力强大,但是运营维护成本也总是居高不下,面对复杂的基因测序数据处理,既要拥有高性能的计算能力,又要考虑其经济效益。

华大基因选择了与英特尔联手启动关于至强融核协处理器在生命科学领域的应用,至强融核协处理器(Xeon Phi)是英特尔面向高度并行的高性能计算(HPC)应用所推出的协处理器,能够提供多达 61 个内核、244 个线程和 1.2 万亿次浮点运算性能。此外其余英特尔至强处理器架构则使用同样的编程语言。

采用基于英特尔微异构的超级计算机不仅是编码的简单可移植性考虑,这是来自基因测序相关程序的重要需求。

如果开发出微异构的加速器来运行程序,取代之前的异构 GPU 加速,就会取得事半功倍的作用。这也就是至强融核协处理器(Xeon Phi) 和微异构存在的意义。

在今天的医药行业,大概有 50% 的工作都是在硅谷进行的,也就是说其实是 IT 行业来做的 ,而在基因测序这种底层的技术上,数据的计算以及分析能力成为一个关键点,也正好契合了当今 BT 技术和 IT 技术的融合趋势。

华大基因研究院副院长方林也表示:

“在未来的工作中,华大基因会持续研究高性能计算领域的新技术,并将这些技术应用于各种实际的生物信息项目中,如百万种动植物参考基因组的构建以及一些复杂疾病的研究项目等。”

沉思于基因检测,基因测序,微异构,大数据等宏大命题中的黄姓编辑的思绪还是被护士所打断,似乎是检查结果出来了。黄编从来没有像今天这么清晰地认识到,生命是如此玄妙,数据化生命听上去如此冰冷,但前景又让人热血沸腾。

 

题图来自 bigthink 插图来自 rt.com

登录,参与讨论前请先登录

评论在审核通过后将对所有人可见

正在加载中

在命运的塑料大棚里,每棵被喷了过多农药的白菜心中,都曾经有一个成为无公害有机蔬菜的梦想。

本篇来自栏目

解锁订阅模式,获得更多专属优质内容