大数据与精准医学

  人工智能和大数据等技术应用于医学领域将会推动精准医学的发展,在疾病发生之前进行采取针对性的措施,从而改变医疗健康的概念。同时,人工智能和大数据也对研究我们遗传信息中97%的、我们尚未了解的“暗物质信息”起到关键作用。总体来看,精准医学才刚刚上路,还存在很多的机会。

  精准医学是组学大数据跟临床医学的结合

  第一个问题,精准医学的本质是什么,核心是什么?我看到国内有各种各样的评论,关于讨论精准医学的内涵,各种观点都有,我自己觉得,精准医学的核心其实就是一点,非常明确,就是组学大数据跟医学的结合,说得更具体一点,就是组学大数据跟临床医学的结合。也就是说,把组学大数据用到临床的医学当中来,提高医疗诊断的准确度,提高治疗的效果。这里又包括两层含义,一个含义是组学大数据,另外一个含义是医学。那么组学大数据又包括两层含义,一个是组学,一个是大数据。我们知道,近年来,随着临床研究的发展,我们获得了越来越以基因组为代表的分子水平的人类信息,这个是前所未有的。那么,随着以基因组为代表的组学数据的发展,人们越来越多地积累了以遗传密码为代表的不仅仅是基因的信息,也包括蛋白的信息。后来,人们发现,挖掘这些信息会得到很多人类健康和疾病的信息。所以有人提出,如果把这些信息应用到临床当中,一定会提高临床的效果,这就是所谓精准医学的本质含义。但是,只获得这些遗传密码的信息是不够的。

  大家知道,所有遗传密码的信息都是非常多的大数据,这个大数据大家是很容易测得的,包括我们现在知道,在国内,一个人花一万元就可以得到自己的遗传密码,但是你即使得到你的遗传密码,你仍旧是一点都不懂,因为密码只有四个字(A、C、G、T),所以要读懂他,你就要发展大数据分析的理论方法和技术。要把这些组学数据运用到大临床当中,也就是组学数据和大数据分析方法的结合。所以一部分涉及到组学大数据,一部分是医学,两个领域结合起来,就构成了现在精准医学的本质和核心,这是第一个问题。关于精准医学,是自上世纪90年代由于组学数据用到临床当中,发展转化成转化医学,个体化医学,从2011年又出了精准医学的名称,但不管怎么说,精准医学他的本质是清楚的,就是组学大数据在临床医学当中的应用。

  精准医学有可能改变医疗健康的基本概念

  精准医学能够给医学带来哪些本质的变化?精准医学的内涵,一定会引起一些本质上的变化,用一句话来说,精准医学本质上之所以能引起各国领导人的重视,是精准医学有可能改变医疗健康的基本概念,也就是说,促使医疗的基本概念从当前的诊断治疗转变成健康保证。未来因为精准医学的发展,由于组学大数据的介入,使得健康这一问题,不仅仅是病人要关注的,而是全民都要关注的。对任何人,我们可以在他没有得病的时候测量他的组学数据。分析组学大数据,那么就可以对他未来健康发展的危险因素做出评估,根据评估进行适当干预,这样有些疾病就不会发展,提高他的生活质量,把整个医疗健康体系的关口前移,在没有病之前就提出评估与保证。

  未来医学的趋势

  根本性概念的转变,可能导致一些新兴产业的出现,有人预估,跟所谓精准医学相关的这个概念转变导致的新兴产业,也许到2018年将有2000亿美元的规模,也就相当于2万亿元人民币,对GDP就有影响。这种由精准医学带来的本性概念的改变由此促使的产业的发展当然会引起各国领导人的注意,这是第二个方面,关于精整医学他可能带来的一些本质变化的估量。

  精准医学研究已成为新一轮国家科技竞争与引领国际战略的制高点。大家知道美国要测量100万自然人的遗传密码,欧盟也在积极推动所谓精准医学的研究,包括英国、法国等等,日本也在进行精准医学相关的投入和计划。那么精准医学可能在哪些方面促使产业的变革和发展呢?

  我想至少在四个方面:第一,可以促进海量的生物样本库和数据库的发展。由于精准医学的推动,需要测量百万人量级的组学信息,首先涉及到这百万人生物样品的获取、保管、提取和提供给这些人使用,这当然是一个很大的产业。同时,这些样本数据是百万人数量级的,一定要促进相应的大规模数据库的发展,有人估计,这个产业的规模可能是百亿数量级。

  第二,有了这些样品,就要测以基因组为代表的这些组学数据,所以就要测基因组、蛋白组、转录组,这些测序的数据,到2018年,就可以达到117亿美元的规模。

  第三,在这些海量数据挖掘的基础上,就可以促进产生大量的、新的分子诊断指标,就会增加很多跟疾病相关的信息,有很多就可以作为新的疾病的标记。同时,也可以发现很多新的药物设计的靶点,这就促进了第三个产业,也就是所谓分子诊断和药物设计靶点的相关产业。

  第四,伴随着精准医学概念而产生的新的医疗设施,比如说要成立一些健康源,需要一些健康师,这些产业大概是千亿数量,精准医学将带动基因测序、分子诊断、个体化治疗等市场规模的扩大。

  实现精准医学我觉得至少要具备两个条件,第一个,要具备组学大数据的基础,我们知道,精准医学就是把组大数据用到临床当中来,所以第一个你要获取组学大数据,第二步就是组学数据的挖掘,用到大数据分析、人工智能、深度学习等等,以知识为基础的方法用来挖掘这些组学,以获得在分子水平上跟疾病相关的知识,这是第一个基础。

  第二个基础,就是搭建分子水平的以基因型为代表的信息核,有效地把分子水平的信息转化应用到疾病的诊断和治疗当中,这就是要建立所谓生物信息学、生物网络、系统生物学等等。有了这两个基础就可以更好地实现精准医学,当然一个非常重要的条件就是精准医学的发展,应当和当前的临床影象学、生化检验等临床知识很好地融合,精准医学只是把新的数据应用在原有的数据上。

  精准医学才刚刚上路

  精准医学虽然本质上可能带来变革,可能引导新的产业的发展,但是才刚刚上路。我们的创新和机遇在哪里,我们迎接的挑战是什么?我拿组学举一个例子,在我们的临床密码当中,在组学当中,目前,还存在着大量的暗信息,所谓我们自己的遗传密码,目前能够从规律上分析的只有一小部分,其他还不能分析的就是基因组当中的所谓暗信息。我们一个人的遗传密码信息如果装订成册,每3000个字符一页,100页装订成一册,那就是一万册。每一册一厘米,我们自己的基因密码书就是一百米,大家可以想像,你自己的遗传密码,从地面往上排,要排到四十层楼房那么高,如果你全部读懂了,你就精准了。我相信没有谁能精准,集全世界科学家的智慧,包括生物医学家的智慧也做不到。这本天书能够从规律上了解的部分只达到遗传密码的3%,另外的97%实际上集目前全世界的智慧也还读不懂。迄今为止我们的遗传密码97%是暗的。它是否在活动,在行使功能呢?结果100%是肯定的,这些非编码序列和我们制造蛋白的那些基因一样,每时每刻都在表达,每时每刻都在起作用,所以他们也是真正地完成生物学功能,而97%的密码还不知道的情况下我们如何做到精准呢?所以离精准还差了很大的距离。

  (根据陈润生院士在首届“中国智谷大会人工智能与产业创新高峰论坛”上的演讲整理而成,未经本人确认。)

  中科院院士 陈润生

关注读览天下微信, 100万篇深度好文, 等你来看……