人工智能让医疗科研更简单
- 来源:IT经理世界 smarty:if $article.tag?>
- 关键字:人工智能,医疗科研,零氪科技 smarty:/if?>
- 发布时间:2017-06-06 11:00
在电脑上点一下,就能对大量数据进行统计分析,发现问题或者验证猜想,这大概是无数苦于发论文而不能的临床医生的梦想了。这个场景正在逐渐变为现实。
“很多时候,他们并不是写不出论文,而是缺乏数据或者整理数据的时间。在国外,一线专家会有专门的科研助理团队负责整理数据和完成患者随访,在中国,基本只有最顶尖的专家才会有这样的助理;而且中国的医生工作负荷大,大多数时间都在手术室、病房或门诊,没时间去整理数据。”
零氪科技(LinkDoc)的CTO罗立刚告诉记者,由于结构复杂、专业性强,将医疗行业的数据大规模转化为机器可识别分析的数据,即结构化,一直是行业的难题。据美国临床肿瘤学会(ASCO)统计,美国也仅有不到3%肿瘤患者的数据被结构化用于研究,剩下97%的数据都闲置在医院信息系统(HIS)里或者病历病案室中。作为一家专注于肿瘤大数据分析与应用的科技公司,通过承诺提供高质量的数据报告和产品,零氪和诸多医院、科室合作,帮助他们处理脱敏后的病历数据,使电子病历信息转化为科研级数据,并研发人工智能工具,实现了肿瘤大数据一站式解决方案的搭建。
从“人工”到人工智能
将HIS系统中的患者数据,人工录入整理到数据库软件的标准化模板里,生成标准数据文件,再用SPSS、SAS等分析软件对数据进行统计分析,这是临床医生做科研的传统套路。其中生成标准数据文件的过程(也就是数据“人工结构化”),罗立刚算了笔账:在美国,一位肿瘤患者,治疗全过程数据的平均结构化成本是5000美元;在中国,差不多也要5000元人民币。
“结构化是最关键的,也是很困难的一件事。” 罗立刚说。一开始,零氪用传统方式收集数据,但很快就发现难以为继。“人工录入一份电子病历平均要花2个小时来整理,正确率还只有40%左右。”而要让录入人员看懂平均50多页的患者病历,也需要投入大量的培训成本。
之后,零氪对录入的流程进行了“流水线式”的改进。“比如说一份病历中有五六页是手术记录的信息,那就分成一个独立的部分,让一个录入员专门做手术记录的数据结构化。这样培训的成本低,工作效率也高。”通过分工,并引入了录入规范智能提示、参考病历自动推送、自动化质检系统等辅助技术,病历的录入时间从2小时降到了17分钟。
但人工录入终归“人力有时尽”,零氪又开始探索新的方式。 “第二代其实没有用到很复杂的技术,主要是一个系统工程,但这为第三代系统积累了经验。”
在数据采集上,零氪的大数据平台开始直接接入医院的HIS系统,减少中间环节。中国医疗机构的HIS系统厂家众多,没有统一标准,零氪的IT团队就只能一个个机构去实施解决方案,但这是“磨刀不误砍柴工”的事情。“我们现在70%的情况下都是这样的,30%的在逐步实施。虽然过程中还会有一些问题,但我相信将来肯定都会打通。”
数据进入系统后,继续分工的思路,从简单的部分开始,数据结构化的工作逐渐由“机器辅助人工”变成了“机器取代人工”。我国医疗术语缺乏标准化和医疗信息的复杂性,是机器取代人工的障碍。但前期大量人工录入的经验积累,让零氪的团队熟悉了临床医生习惯的表述,明确了结构化点位基于的标准,形成了标准化的术语集,并开发了Fellow-X智能结构化系统。
“人工智能,有一大部分是通过机器学习完成了,给医疗数据处理带来了很大的帮助。”罗立刚介绍,数据被导入系统后,电子信息会自动解析、标准化录入并进行质量校验;纸本信息会被扫描成图片格式然后由图片识别技术(OCR)识别成文本信息。在引入了深度学习技术后,计算机在复杂场景下也能快速适配。“比如说化疗药紫杉醇,醇字识别错了,系统就会自动更正。目前我们95%的数据都能自动结构化,只剩下5%比较难的还需要人工。”人力劳动被解放,让数据处理能力大幅提升,一份病历的录入时间缩短到只需要5分钟。现在,零氪的肿瘤大数据平台已有超过100万的患者数据。
“IT的人做传统行业,要对行业有敬畏感,不要总说要颠覆什么,而要多去走访,多交流。” 零氪的大数据技术平台是完全基于阿里云的SaaS云服务,合作医疗机构的原始数据保存在内网中,清洗、脱敏、结构化后传输到云上,医生可以通过PC端或App进行访问。一开始,零氪在三家合作的医院试用新的系统,在不断交流反馈后,罗立刚发现,IT概念上的数据库和医疗行业的数据库有很大的区别。“我们IT的人说数据库,是说Oracle、mysql,而医疗行业的人说的数据库,是指从后台的存储到前台的可视化分析的整个解决方案。”
现实的需求促进了许多系统新功能的产生。临床医生不擅长统计分析,平台上便提供了描述性统计、组间比较、生存分析等可视化且便捷易用的适合肿瘤医生的功能,并可以用App随访自己的病人,统计分析结果均使用开源的R实现,“让大约80%的科研工作能在平台上实现。”
罗立刚感慨: “人工智能和处理后的医疗大数据结合,会产生许多新的帮助。”可以为医院和科室的管理决策提供数据,也可以辅助医生的临床治疗。“患者来了,了解情况后,系统可以将过往类似患者的情况做一个归纳呈现给医生,辅助医生做诊断。”
目前,零氪与阿里云、英特尔正在联合举办天池医疗AI大赛,挑战早期肺癌的智能化诊断,零氪提供经脱敏并由专家标注的高清胸部CT扫描影像数据。“人工智能技术近几年在图像形态学方面突破很大,比如人脸识别,在医学上的前景也是很好的。中国一直存在影像科、病理科医生缺乏的现象,这是一个福音。”但罗立刚也强调,医疗是“人命关天”的行业,影像诊断技术应用的过程应该谨慎,从复核开始,逐渐到初筛,不断提升准确率,距离技术落地还有一段距离。
目前零氪已有超过500家医院和600家科室的合作伙伴,但出于信息安全和隐私保护的考虑,医生只能使用自己医院的数据,跨医院的数据使用,还需要医院间进行协议和签字授权。医疗数据有了,要如何去打通屏障充分应用,这可能是未来医疗行业的重要问题。
文/李昊原