大数据推动基因测序产业化

  • 来源:计算机世界
  • 关键字:大数据,基因测序
  • 发布时间:2014-07-22 10:07

  新一代基因测序技术与大数据、云计算共同发力,将使大众“治未病”成为可能,一个庞大的基因测序市场即将形成。

  在今年2月叫停所有基因测序后,6月30日,国家食药监总局发布公告称,经审查,批准两款二代基因测序仪和两款检测试剂盒注册。这意味着基因测序临床应用重新启动。基因体检是当前基因测序临床应用最主要的形式。

  DNA是生物的遗传物质,基因是具有遗传效应的基本DNA单位,基因组则是所有基因的总集,包含全部DNA。DNA是长链聚合物,由以A、C、G、T为符号的四种脱氧核苷酸组成。如果将基因组视为一部书,那么书的所有章节都是用A、C、G、T四个字母写成。基因组测序就是测定DNA分子中A、C、G、T的排列顺序,相当于将遗传信息以四字母组成的文本形式读出。人类基因组测序已于2005年完成,科学界也已在人类基因组中发现大量与健康相关的基因。

  基因体检时首先需提供唾液,采用生物学方法可提取脱落在唾液中的细胞中的DNA,采用基因测序仪测得基因组中A、C、G、T的排列顺序,并生成数据文件。再将该数据文件与已知数据比对,最后在体检报告中指出受体检者基因组中与健康或疾病相关的基因,并提供健康和医疗建议。第二代测序技术将每基因组测序成本从2001年的9526万美元下降到1000美元。

  2007年成立的美国23andMe公司是最早的基因测序互联网公司,由谷歌投资,创始人沃西基是谷歌布林的妻子。体检者在试管里吐一口唾沫,盖上盖子,寄往23andMe。两周后会收到邮件提示,你的基因检测结果已经准备好。用户登录,便可看到自己基因组上超过100万个位点的基因信息和所做的分析,包括对259种疾病患病率的风险预测、祖先血统分析和药物的反应预测等。23andMe目前已有40万用户,测序价格也已从创业时的999美元降为99美元。23andMe被称为“个人健康医疗领域的谷歌”。

  在解决了测序成本问题以后,基因测序服务普及的最大瓶颈在于数据处理。完全测序的人类个体基因组数据量为100GB~1000GB,压缩后数据量约为3GB。科学界已知有3000个基因与特定疾病相关,大约每5天发现一个新致病基因,对已有致病基因的认识也在不断深化。数据量巨大、数据复杂、数据更新频繁,使得数据存储、解读及共享已经成为基因测序产业面临的最大挑战。而大数据和云计算则成为突破数据处理瓶颈的利器。

  2011年,谷歌投资美国DNANexus公司,谷歌将和DNA Nexus一道,利用谷歌的云计算和大数据平台,打造巨大的开放式的DNA数据库,而美国国家生物技术信息中心的DNA数据也将并入其中。

  有“基因测序界苹果”之称的美国基因测序厂商IIIumina于2012年推出基因测序云计算平台——Base Space。每用户可免费存储1TB测序数据、数百次运行结果的数据,用户可根据需要运行云端的基因数据分析应用程序,包括开源和第三方应用程序。

  在国内,2012年华大基因推出了第一个自主开发的云服务产品——Easy Genomics TM。该平台集基因组学领域内常用的和华大基因特有的数据及参数为一体,结合云存储和高性能计算技术,能够以更低的成本、更高的效率完成大量的基因数据处理及分析。华大基因目前已经拥有212TFlops的峰值计算能力,总内存容量已达到37.2TB,总存储能力已达到17PB。

  老话说“上医治未病”,意思是最高明的医生擅长防病。当癌症等重大疾病突然降临,人们往往哀鸣:“为什么是我?”基因测序服务能够为个性化健康管理提供科学依据。新一代测序技术与大数据、云计算共同发力,将使大众“治未病”成为可能,一个庞大的基因测序市场即将形成。

  6月30日,国家食药监总局发布公告称,经审查,批准两款二代基因测序仪和两款检测试剂盒注册。这意味着基因测序临床应用重新启动。

关注读览天下微信, 100万篇深度好文, 等你来看……