现实挖掘:大数据的美好世界
- 来源:中国计算机报 smarty:if $article.tag?>
- 关键字:大数据,现实挖掘 smarty:/if?>
- 发布时间:2016-07-06 14:14
2016年1月,曾入选《连线》杂志“即将改变世界的50人”的内森·伊格尔先生和曾担任《麻省理工学院科技评论》信息科技编辑的凯特·格林先生联合撰写的力作《现实挖掘》的简体中文版,由中信出版集团正式出版。
在书中,作者认为在大数据时代,海量的数据已经扑面而来,接下来我们要做的就是以负责和谨慎的态度采集数据,挖掘出其社会价值。作者从个体、社区、城市、国家和世界五个层面剖析了数据挖掘的重要意义,详细介绍了数据采集的方法和相关的案例,并详细解读了现实挖掘,以及大数据带来的美好世界。
大数据是日常生活生产中产生的数字记录或留下来的数字足迹,是人们生活的元数据。如果从负责任的、审慎的以及对环境敏感的角度利用大数据,可以帮助人们改善公共卫生、引导个人更好地决策、促进知识的共享、提升创新速度。
这一切都需要基于一个重要的前提,即保障个人自由和隐私不被侵犯。
“现实挖掘”是一种满足上述前提要求的有效方式,在数据采集和分析的过程中能够保持谨慎的态度,而且确保分析能够反映参与人的现实状态,这样才能对个人和社会产生正能量。该书主要涉及到以下5大领域:
首先是从个体开始挖掘。随着移动电话、手表、皮肤电流监控器、可穿戴传感器等各式各样数据采集设备和新技术的出现和发展,日常数据的采集越来越容易。通过捕捉日常行为产生的“数据排放”,研究人员可以深入了解人们的行为,并设计更适应人们实际行为的系统。
这些系统可以根据个人数据分析来为个人行为提供指导,督导人们改善行为习惯,比如保证每天的运动量、督促个人戒除烟瘾等;同时,当系统判断不寻常或者潜在危险的事情发生,或是财物有损坏或被偷窃的风险时,及时向人们发出通知。但是,紧随而来的个人数据所有权和隐私保护问题,需要个人数据的利益相关者,即企业、用户、团体组织,以及法律专家联合制定公平合理的个人数据所有权条款。
其次是数据驱动下的社区和组织。针对社区和组织这种小规模群体的数据采集,最大的挑战在于寻找合适的激励方式鼓励人们参与。利用小规模群体数据,工程师可以更简单地识别人际关系、时间和人们所处的环境,可以帮助公司管理者和当地政府官员更好的决策。由于小群体中个人身份信息与数据往往明确联系在一起,在较小范围内分享所采集的个人信息,更需要考虑参与者的隐私。
为了促进小规模群体数据的合理应用和保护个人隐私,需要制定相应的协议和规则,并保证每个机构或社区的成员都有权从他们生产的数据中获得利益。
再次是大数据让城市更美好。最能体现城市特征的数据是交通流量数据和犯罪率统计数据。交通和犯罪数据都很适用于建模和预测,利用城市交通流量数据可以智能分配道路资源,为驾驶者提供实时交通状况信息和路线选择建议;同时,交通数据可以帮助更好地疏散人群、应对紧急情况和追踪传染病的扩散机制。犯罪预测系统能够在一定程度上降低城市的犯罪率,当犯罪数据与其他一些信息,如天气、地理地形、重要事件相匹配时,警方可以利用这些信息进行犯罪监控。
再次是大数据治国。在国家层面上,政府机构、大型企业和国际组织可以获得更大范围的数据来源,包括国家人口普查数据、通话记录、互联网传输数据,以及有限的银行数据。数据通过图表、动画或是互动数据工具,能够直观反映隐藏在数据背后的信息。通过数据的可视化,如时间线、地图、图表等,政策制定者和非政府组织可以了解这些大量的、动态的数据如何通过不同方式被划分、切割或交叉引用,使得他们方便地获得国家运行的最新情况。
最后是世界数据。现实挖掘影响深远的应用之一是预测疾病和追踪传染病。大数据和现实挖掘能够通过分析世界层面的数据,实时掌握新型流感病毒或急性传染病发病率突然上升等紧急疾病动态信息,并将其及时通知医疗服务人员和公共政策制定者。急性流行病的最佳预警系统建立在多源数据的组合上,并且这些数据源应具有可回溯性,以便于进行现实核查。这些数据来源广泛,包括出行网络和搜索引擎检索词,以及手机信息和动态推文等。
中国电子信息产业发展研究院 王松