政府数据开放要掂量

  据统计,于2014年1月全面改版的美国数据门户(data.gov)截至2014年2月10日,共开放了88,137个数据集、349个应用程序、140个移动应用、参与的部门达到175个;同时美国还有40个州、44个县市建立了单独的数据门户。而英国的数据开放门户网站(data.gov.uk)上,共放了13,670个公开的数据集和4170个非公开的数据集;此外,伦敦、曼彻斯特等地以及索尔福德市议会等16个地方和部门还建立了独立的开放数据门户。

  数字化让政府积累了大量的数据,如交通状况、天气和各地传染病资料等。对这些数据进行收集和分析,了解各种数据之间的关系,就可以进行预测分析,如传染病与天气或人口流动是否有关,犯罪率是否与地理环境有关等,这将对社会、国家乃至人类都有好处。政府数据开放,顾名思义,是将政府掌握的各类数据库、数据集公开,供社会各界查询、下载、应用。2009年在欧美国家兴起的这个政府数据开放运动为更好发挥数据价值、挖掘数据潜力打开了一扇窗。

  那么,我国政府数据开放的现状、特点和发展方向又是怎样的呢?就此话题,记者近日独家采访了太极计算机股份有限公司(简称太极股份)信息安全事业部总经理郭峰。

  政府数据的紧与松

  我国政府数据开放情况是,在国家层面上,2013年9月12日,与欧美国家的数据开放网站类似的新版国家统计数据库(http://data.stats.gov.cn/)正式上线为公众提供数据服务,目前入库的数据近600万笔,数据涵盖社会经济的方方面面,既包括了国家统计局生产的主要数据,也包括了有关部委生产的其他数据,还与主要国际机构数据库网址集成对接。

  在地方层面上,上海、北京等主要城市率先开展数据开放工作:上海建设了国内首个地方数据开放网站——“上海政府数据服务网”(www.datashanghai.gov.cn),提供9家试点单位的212个数据产品、30个数据应用可下载,涵盖地理位置、道路交通、公共服务、经济统计、资格资质、行政管理等六大领域,如上海市住房保障管理局开放了保障房工程信息、房地产开发企业信息、房地产经纪企业信息等数据产品。继上海市之后,北京市开设政府数据资源网(www.bjdata.gov.cn),目前已有29个部门公布了400余个数据包,点击量最高的是由北京市国土资源局提供的“土地用途分区”数据集,截至2014年6月23日已被下载1045次。此外,青岛等电子政务较发达的城市纷纷开展数据开放工作。

  我国政府数据开放已经起步。但区别于商业数据,郭峰向记者介绍说,从数据来源与构成看,政府数据有其自己的特点:

  一、数据覆盖群体更广泛。商业数据的被采集者主要是网民或者互联网技术的应用者,而政府数据的采集范围几乎可以覆盖全部人口,因此政府数据更具有宏观上的数据意义。

  二、数据采集方式更真实。商业数据通常通过虚拟渠道采集,而政府数据的绝大部分采集工作都通过现实渠道,即使通过虚拟渠道采集,该虚拟渠道往往也是政府部门或分支机构可以实际掌控的,因此政府数据的真实性和可靠性更高。

  三、数据种类更全面更具有稀缺性。商业数据往往与特定行业或者特定线程有关,而政府基于政府职能采集的数据,势必涵盖到政治、经济、文化、社会等各个领域、各个层面,其中必然包括了商业数据无法涵盖的数据种类,这体现出了政府数据的稀缺性。

  四、部分数据的性质更敏感。如同商业数据中包括部分商业秘密数据一样,政府数据中有很大一部分数据性质更加敏感,事关个人隐私、公共利益、国家安全诸多方面,这是造成政府数据应用困难的主要原因之一。

  在郭峰强调,收集的盲数据不具有太大价值,具有价值的是对数据集合的整合、分析、挖掘得出的信息,这些信息如果得到应用会产生很大的经济和社会价值。但在客观条件下,政府数据的公开与应用困难重重,甚至会在社会、国家层面上带来威胁和隐患。而如何提高政府机构对数据利用的积极性,支持数据本身的敏感性、安全性和持续性,以及最重要的政府数据公开的政策、立法、机制建立、孕育环境等问题,也是政府数据公开过程中的难点。

  “在我国,目前政府数据开放呈现出既紧又松的趋势。一方面,为维护社会和国家安全,国家非常重视数据和信息安全,这从今年2月中央网络安全和信息化领导小组的成立可见一斑,对于敏感数据的把控势必会越来越紧;而另一方面,科技和社会的发展、国际经验的借鉴,让政府数据开放应用成为大势所趋,这就要求政府对这部分数据的掌控得放宽、放松,将数据逐步开放,促进数据走向应用、产生价值。”郭峰说,“大数据已经不仅仅是简单的数据集合,也不仅仅是一种技术,而是作为一种创新型结构性产业,被上升至国家战略层面予以关注。这是大数据的机遇,也是政府数据必然走向开放的原因之一。”

  搭建数据开放平台

  分级、分层、分类开放

  在政府源数据处理过程当中,建议按照分级、分层、分类三大原则进行,其中分级原则解决的是,如何合规地界定在《中华人民共和国政府信息公开条例》、《中华人民共和国保守国家秘密法》和行业内各种保密规定中所规定的不能公开涉及国家秘密的、不宜公开属于敏感的和可公开的公众数据的级别,以便清晰地区别,避免在源头出现泄露国家秘密的事件,这个原则是基础,也是源头,只有首先遵守这个原则,才能执行下一个原则。例如,每年某部委对很多单位的审计工作,所有采集的数据都应该属于半公开或者敏感型数据,通过整理后的工作报告则属于不能公开的涉及国家秘密的信息。只有通过审计校验,上报上级部门,经过审批,允许对外公开后,才是可对外公开的数据和信息。

  在分层原则当中,即使将第一级的公开信息分级出来以后,对于不同的社会公众也需要进行数据分层管理,对于不同用户的不同需求进行分权限访问和控制,避免公共数据被恶意滥用的发生。例如,交通公路出行信息中的危险品运输车辆这种可公开信息,也仅仅对一定范围内的公众开放,不能完全无限制地对全社会开放,以防被不法分子加以利用。

  分类原则与分级和分层原则不同,更多的是依照社会公众的需求以及公共服务的要求,政府数据提供者按照不同类别,提供粗粒度、细粒度和不同维度的原数据、粗加工数据或者数据模型以及工具。

  这三类原则要灵活使用,但分级是前提,分层是核心,分类是初级数据价值利用,当这些数据有层次、合规地被提供出来以后,才能被挖掘、分析、关联,形成信息,产生社会价值。

  政府数据开放,是个体系化工程,不是某一个组织或者个体可以完成的,在整个过程中,各方的角色和职能均不一样。

  第一种角色是政府数据源和监管者(包含提供者、监管者),这个角色拥有大量的数据或者能够收集到大量的数据,却没有能力或者动力从这些源数据中提取出数据价值或者信息价值,或者通过创新的想法和手段催生出新的“精细化数据”,例如,政府十二金工程中的各个行业数据,总共有海量的数据,但是在公共服务当中的利用却是很匮乏的。

  第二种,数据开放技术实现者(包含策划者、技术支撑者、运营者),通常是咨询者、技术支撑者、分析者、运维者这些角色拥有不同的技能,但却没有数据,他们能协助政府用户进行数据的分级、分层、分类,并通过IT支撑的手段,将这些没有加工或者加工过的粗粒度的数据,放置在数据开放平台上,并加以分类、分层提供给公众用户,并通过安全运营确保其安全性。

  第三种,数据价值利用者(包含各种思维者、应用开发者、发布者),这类角色没有数据,但这并不妨碍他们具备创新思维,通过各种创意想法获得价值,并将开放平台的各类数据通过各种应用开发来实现大家对于某类数据的应用,获取相应的信息价值,例如“航旅纵横”、“非常准”等小应用。

  而太极股份作为IT服务的“国家队”,在第二种和第三种的角色中可以发挥的作用,郭峰总结为三方面:一是做咨询、策划,二是搭建数据开放平台,三是在平台搭建、数据导入后做运营者。太极股份承担了很多重大和重要的政府信息系统工程,多年来的技术沉淀,每年大大小小上千个各种项目的服务经验是太极股份承担这类角色的实力的有效保障。

  推广应用 AIS海上事事通

  政府数据也不是为了开放而开放,数据开放的最终目的是通过应用,真正发挥出信息的价值,产生真正的经济和社会效益。推广应用是其中真正的难点,郭峰以太极股份承建的海事局主导的AIS(船舶自动识别系统)公众服务系统项目为案例向记者展开了介绍。

  AIS公众服务系统项目建设以AIS(船舶自动识别系统)、电子海图、船舶静态信息、水文等数据为核心,以服务、需求为导向,通过对数据分析、梳理、整合和技术开发等手段,基于一张海图,盘活AIS、船舶等各类信息数据,构建“两条服务主线,N个专业服务主题,一套在线服务应用支撑系统”,实现海事公共服务水平和监管效能的重大提升。项目一期重点开发公众服务方面的数据挖掘和社会应用。

  截至2013年底,海事局已建成基本覆盖中国沿海、黑龙江松花江水系、京杭运河和淮河水系、长江三角洲高等级航道网、长江水系和珠江水系的AIS岸基网络系统,已经积累数以百亿计的AIS数据,并以每年亿条的数据递增。这些海量的数据已经实现对海上和内河高等级航道网交通动态的全方位实时掌控,在保护航行安全、事故调查等方面切实达到成效,为海事局行使水上交通安全管理的职责提供了支撑和辅助。

  根据市场推动,民间组织开发运营了一些提供船舶位置、航行计划的服务性网站,较出名的主要有国外的marinetraffic、vesseltracker和国内的船讯网,基本为免费的实时查询船舶动态的公众服务网站,能够为船东、货主、船舶代理、货运代理、船员及其家属,提供免费的船舶实时动态。但是这些民间网站都存在数据来源不充足、数据更新不及时等问题,公众急切需要全面、准确、及时的AIS数据来支撑其水上船舶安全航行管理、港口调度计划、物流、船代、货代等工作。

  AIS公众服务系统(一期)盘活了海量、权威的AIS等信息资源,通过抽取、清洗、转换、加载等步骤对数据进行加工整合。在此基础上,建立服务单元资源池,形成如船舶动态查询、航标信息查询等多个服务单元,同时对这些服务进行梳理、注册、发布等管理。

  基于多个服务单元,可以对这些服务单元进行编排、加工形成服务链或服务簇,比如船舶动态和实时气象进行整合加工形成船舶动态实时气象查询,比如服务单元加工形成API(应用程序接口),把API嵌入到其他业务系统或网站中形成新的服务,这些新的服务可以返回服务资源池中供再利用。服务组织是指将服务进行网站版、移动版的组织和展现;服务应用是指根据不同的服务对象建设不同的主题应用,服务渠道是提供手机、桌面、大屏、PAD、移动终端等多种方式和手段;服务对象包括内部领导和外部公众两大类,其中公众包括船舶、船公司、船东、船代、船舶经纪人、货主、货代、仓储/场站、码头等。

  AIS公众服务系统建设完成多达百亿条、数百TB的AIS公众服务数据库,以每秒100条AIS数据计算,每年将增加数十亿条、几十TB的数据量。海量的AIS数据将提供更多更具价值的信息。系统建设完成后,为船东/船代、港口、船员、货主/货代、船员家属等提供搜船直通车、搜港直通车、船舶实时定位、货盘信息、港口动态提醒信息等个性化服务。

  用起来是硬道理。郭峰总结说,加快数据开放步伐,充分挖掘民间智慧,便利服务民生,提升政府管理水平,数据开放的未来价值前景值得我们所有人期待。 精彩观点

  链接 关于云,请你不要晕

  在采访过程中郭峰向记者强调他对云计算的理解:

  1.云计算没那么神,是IT自身的一种提升而已;

  2.云时代确实真正到来了,可以借助云计算做传统计算环境下做不来的事情了;

  3.公有云、私有云对最终用户而言没有区别,因为他们应用起来不会有不一样的感觉;

  4.公有云、私有云的区别在于提供服务的机构或者企业该不该、敢不敢用公有云。小商户、中小企业、创业型公司和快消企业等是非常适合用公有云的,政府是不是适用公有云则需要视具体应用和情形而定。

关注读览天下微信, 100万篇深度好文, 等你来看……