医疗卫生存储变革大幕拉开

  • 来源:计算机世界
  • 关键字:医疗,卫生,存储,变革
  • 发布时间:2010-08-05 14:30
  “医院这几年净忙着添置存储设备了。”解放军总医院计算机室主任薛万国说,“大型医院每年的数据增量在数十TB,仅医学影像每年就可达20TB。”

  应对急剧暴增的数据,已经成为当前医疗卫生信息化的重要技术挑战。但这一挑战没有仅仅停留在技术层面,更涉及到医疗卫生数据本身所涉及的业务管理、法律规范等方面。7月中旬,在由《计算机世界》报主办、计算机世界《新卫生》专刊承办、中国惠普有限公司协办的2010年新卫生沙龙上,与会专家围绕“医疗卫生信息的存储变革”这一话题进行了深入探讨。

  以中国13亿多人口的巨大基数估算,在逐步推广电子健康档案、电子病历的进程中,数据量必将快速膨胀;卫生系统信息格式多样,加之医疗卫生系统业务本身对于信息的存储和归档有着严格的要求,这些都对卫生信息存储构成新的巨大挑战。

  信息量激增

  医疗卫生信息的数据量正在急剧增长,这是一个不争的事实,但大多数人对于“急剧增长”这个事实还只停留在感性认识上,那么,到底医疗卫生信息的增长量有多么“急剧”呢?

  首先来看一下以居民电子健康档案为核心的区域卫生信息平台,北京市公共卫生信息中心主任王晖在演讲中介绍了北京市区域卫生信息平台的建设情况和发展要求,“2010年,为进一步提高北京市健康档案的覆盖率,深化健康档案的应用,北京市提出要扩大覆盖率:2010年要求城市居民健康档案建档率达到75%以上,农村居民健康档案建档率达到72%;并提高信息化水平,城乡居民电子健康档案建档率达到20%。”

  对于北京市区域卫生信息平台的存储需求,王晖认为有如下特点:第一,数据基数大,北京市要建立2000万份健康档案;第二,数据内容复杂,除基本信息外,还包含患者的基本医疗记录、14项公共卫生服务信息及双向转诊等所有医疗服务记录;第三,数据增长量大,各社区卫生服务中心日门诊量在几百人到一千人不等,每次门诊将产生多条健康档案记录,按平均500次门诊,每次门诊20条记录计算,351家社区卫生服务中心每日至少产生35万条服务记录,每月数据增长1050万条记录。

  王晖表示,存储空间规划应考虑到以下这些因素:磁盘硬件RAID的需要、数据库索引和备份的需要、数据分析的需要(OLAP)、新增业务的需要、至少满足今后三年的存储需求。一般来说,中等城市区域卫生信息平台的注册系统、索引系统、EHR交易缓存(HIAL)和EHR数据系统约为200GB.300GB/年,PACS等影像数据约为5.5TB/年;大城市则要达到800GB.1000GB/年。

  再来看以电子病历为核心的医院信息平台,电子病历的数据类型包括:结构化文本、自由文本、波形、图像、视频等。很多临床业务为了记录业务过程,留下了越来越多的视频和音频数据,给数据的增长来了个火上浇油。薛万国认为:“解决的方案无非有两条,一是采用大容量磁盘、廉价磁盘阵列,二是对影像数据进行有损压缩。”

  有必要保存

  这么多吗?

  医院各部门产生的所有数据,IT部门只能全部接收并保存,而且不敢有丝毫遗漏或疏忽,以至造成医院IT部门不断地购买磁盘阵列。“我们花钱、花时间、花精力保存的这些数据到底有多少价值呢?确实有必要把所有数据全都保存下来吗?”复兴医院信息中心主任宋炎发出了这样的质疑,这一困惑引起了在场所有CIO的共鸣。

  IT部门无法掌控数据的质量,哪些是真正有价值的数据?哪些又是垃圾数据?IT部门无法权衡和判断,只能照单全收,即便是垃圾数据也得保存。“花那么多钱保存这些数据我都觉得心疼。”宣武医院信息中心副主任费晓璐如此表示。宋炎以动态图像为例进行说明,可能录了一个小时的动态图像,其中只有10分钟是有用的,但是IT部门却把这一个小时的动态图像全部保存着。

  薛万国又举了一个PACS的例子,现在的影像设备都非常好,做个CT扫描可以切得很薄,不管查什么几乎都是0.5厘米,一扫描就是几百张片子。过去我们做个CT,一般就是几十张片子,现在动不动就是几百张片子。医生哪有精力把几百张片子都仔细地看完?有价值的片子也就几张。检查医生扫描之后就全都提交上来,IT部门只能把这几百张片子全都保存下来。反正对医生而言保存这些片子既不收费,也不算成本。

  这些超越技术的困惑都是管理上的问题,需要在管理层面来解决。比如,是否有必要算一本“存储账”,按人头计算每个医生的存储成本?再比如上述的动态图像,是否有必要对其进行剪辑,只把有价值的10分钟内容剪下来保存好即可?

  宋炎呼吁:“有必要出台一些行业标准或规范,对保存的内容、保存时间、垃圾数据如何处理等进行统一的明确和规定,这样IT部门就不会盲目保存,能在相当大程度上节省人力物力。”试想全国上下有上万家医院,能节省下来的成本可真是一个不小的数字。

  全生命周期管理

  不可少

  数据从产生的那一刻起就进入到了一个循环,经过收集、复制、访问、迁移、退出等多个步骤,最终完成一个生命周期。信息数据是有生命周期的,信息生命周期管理(Information Lifecycle Management , ILM)通过存储、保护、管理、集成四个组成部分实现信息管理费用与业务需求之间的平衡,从而达到降低风险和费用的目的,并实现“适当的信息,在适当的时间,以适当的费用,存储在适当的设备上”。

  “到目前为止,数据生命周期管理这个问题还没有得到很好地解决。尽管很多厂商都在讲生命周期管理,但我觉得其中还有很多问题。”薛万国直言。他认为,首要问题是数据库里的数据怎么办?如何归档?在这方面国外都没有面临过这么复杂的问题,因为中国的医院规模太大、病人太多。其次是文件性数据如何迁移?数据迁移之后,如何让访问透明化?

  通常而言,我们是根据数据的访问频率、保留时间、容量、性能要求等因素确定最佳存储策略的。一般是将不经常访问的数据自动移到存储层次中较低的层次,释放出较高成本的存储空间给更频繁访问的数据,这样可以获得更好的总体性价比。在分级数据存储结构中,磁带库等成本较低的存储资源用来存放访问频率较低的信息,而磁盘或磁盘阵列等成本高、速度快的设备,用来存储经常访问的重要信息。

  据介绍,目前广泛采用的分级存储方式如下:在线存储,将数据存放在磁盘系统上;近线存储,存取速度和价格介于高速磁盘与磁带之间的低端磁盘设备;离线存储,将数据备份到磁带库、光盘库或者虚拟磁带库上。

  “区域卫生信息平台的数据是海量的,在存储平台总体架构的设计和实现中,应该将数据生命周期管理作为设计要点之一。”王晖说。

  安全可靠是

  第一位

  在医疗卫生行业,安全性和可靠性是用户对存储的首要需求。也就是说,那么多的数据存在那里,等到需要用的时候一定得取得出来。中国医学科学院肿瘤医院计算机室主任李怀成说:“现在最怕灾备成灾,备份的东西却不能用。”

  “过去在数据比较小的时候备份和恢复是比较容易的,而且还可以做到实时的备份。”薛万国介绍说,“现在的问题是,临床信息系统越来越多、越来越细,可能有几十个系统,服务器数量非常大。这么多的服务器还能不能做到把这些数据都备份到不同的地方去,这件事情非常难。”

  薛万国认为,我们当前面临的挑战、也是让CIO们苦恼的问题是:怎么做备份?保证的级别还能不能做到像过去那样,出了问题以后恢复到任何一个时间点?备份如何管理?几十个服务器总不能一个一个去备份,能不能做集中备份?备份的介质是选择磁盘,还是磁带?又怎么管理?

  还有关于存储模式的选择,数据是集中式存储,还是分布式存储?通常而言,集中存储的优点是效率高且方法简单 ,但扩展性和灵活适应性受到一定局限。一般对于居民基本信息(包括姓名、性别、出生年月、身份证号、社会保险号等),由于其使用频率高,数据容量相对较小,可采用数据中心集中式存储。分布式存储的效率较低,技术实现复杂,但其扩展性和灵活性有很大优势。通常对于医学影像信息,其数据量大,可采用分布式的存储模式,但对医疗机构之间的网络要求较高,区域范围内各医疗机构之间必须是双向网络,而且需要保证一定的带宽。还有一种叫混合式存储,又称为联邦式存储,采用分布式存储+集中式存储的混合模式。

  很多人不希望把所有的鸡蛋都放到一个篮子里,通常会选择混合式存储。王晖表示,北京市区域卫生信息平台将采用集中式全局库与分布式文档库相结合的设计模式。具体而言,前者包括:在市中心对全体居民的全健康信息形成检索库,便于资源快速定位;利用率较高的健康档案信息集中存储于市、区两级平台。后者是指,利用率相对较低的信息及报告文档分散存储于各社区卫生服务机构。

  分布式存储

  受关注

  据惠普企业业务集团技术顾问刘刚介绍,传统的存储解决方案具有四大不足:不满足业务发展需求、容量受限制、需要高成本内容管理解决方案、数据安全有局限性,这样就很容易形成设备孤岛、数据孤岛以及应用孤岛。

  由于虚拟化、云计算等技术的迅速发展,分布式存储受到了越来越多的关注。“2000年,美国伯克利大学发表了Brewer‘s CAP 理论,这是分布式计算机系统里面的经典理论,一个分布式的计算机系统必须考虑三个要素:C一致性、A 可用性、P 多点部署。”据刘刚介绍,“到去年年底,分布式的存储解决架构在北美,包括美国和加拿大已经销售了5000个节点。” 刘刚认为,当前医疗行业的业务需求与分布式架构越来越吻合。

  刘刚简单介绍了分布式存储给用户带来的好处。首先,多地点部署,甚至支持跨洲际部署;其次,没有数据容量的限制,用户可以把海量数据放进来,并存到指定的地点,惠普现在成功部署的系统是PB级的;最后,系统具有高可用和安全性,多个地点之间的数据可以多份保存,而且每个地点之内的架构完全是网格化的,在它的内部可以分为网关节点、控制节点、管理节点、存储节点、介质节点等,在这种模式下整个系统是没有物理设备使用寿命的,任何一台物理设备到了使用寿命之后,只要轻松地下线再加上一台新设备就可以继续使用了。通过这种方式来保证数据的最大安全性。

  《计算机世界》评测实验室主任李献对存储产品进行了长期的关注和评测,他认为,存储是一个系统工程,进行详细的优化后性能会有明显的提升。关于如何选购存储设备,李献提出了四点建议:第一,选择什么接口的存储设备很重要,关系到未来扩展和应用的升级;第二,选购存储不能只看硬件,还要看是否有丰富的存储软件支持(预装),这会加快存储融入环境的过程;第三,IP存储受网卡带宽的影响,单口千兆网卡性能基本与单块SAS硬盘吞吐相当,要获得更高的性能,就要选择支持多网卡,或万兆网卡的设备;第四,要支持虚拟化应用,存储设备本身最好具有支持独立运行的能力。
……
关注读览天下微信, 100万篇深度好文, 等你来看……
阅读完整内容请先登录:
帐户:
密码: