聚类成大数据认知突破口
- 来源:中国信息化周报 smarty:if $article.tag?>
- 关键字:机器人,大数据,知识 smarty:/if?>
- 发布时间:2015-04-24 08:50
大数据作为网络时代的一种客观存在,是网络时代人类社会的重要资产,尽管目前对于大数据的认知存在挑战,但聚类将会成为大数据认知的突破口。
大数据聚类将成行业核心竞争力
大数据标志着一个新时代的到来,这个时代的特征不只是追求丰富的物质资源,也不只是无所不在的互联网带来的方便的多样化信息服务,同时还包含区别于物质的数据资源的价值发现和价值转换,以及由大数据带来的精神和文化方面的崭新现象。
大数据来源于人类的测量、记录和分析世界的渴望和无尽的追求。随着信息技术,尤其是传感器、通信、计算机和互联网技术的迅猛发展和广泛应用,人类获取数据的手段越来越多,速度大大加快、成本急剧降低,层次和尺度更为精细,揭示自然现象和社会现象更加深刻,人联网和物联网又使得人人物物都成为数据源,这样一来,大数据成为网络时代人类社会的重要资产。
大数据本身既不是科学,也不是技术。它反映的是网络时代的一种客观存在,各行各业的大数据,规模从TB到PB到EB到ZB,都是以三个数量级的阶梯迅速增长,是用传统工具难以认知的,具有更大挑战。“物以类聚,人以群分”,这是人类几千年来认识世界和社会的基本能力,是从大数据中发现价值必须面对的一个普遍性、基础性问题,是认知科学作为“学科的学科”要解决的首要问题。无论是政治、经济、文学、历史、社会、文化、还是数理、化工、医农、交通、地理、各行各业的大数据或宏观或微观的任何价值发现,无不借助于大数据聚类分析的结果,因此,数据分析和挖掘的首要问题是聚类,这种聚类是跨学科、跨领域、跨媒体的。大数据聚类是数据密集型科学的基础性、普遍性问题。
以汽车保险为例,作为一个很传统的行业,保险是基于概念评估的生意,保险公司对车险客户是这样聚类的:A类连续两年没有出车祸的,B类最近一年没有出车祸的,C类过去一年出了一次车祸的,D类过去一年出了两此及以上车祸的,要做到这样的聚类,保险公司就要获得客户的相关数据。
物联网时代,当汽车成为轮式机器人,成为大数据发生器以后,就是一个大数据发生体。每一次驾驶,每一次维修,每一次行驶,甚至每一次刹车,都会记录在案,利用大数据聚类,保险公司可对一个车况好、驾驶习惯好、常走线路事故率低,不勤开车的特定客户,给予更大的优惠,而对风险太高的客户报高价甚至拒绝。总之根据大数据聚类保险公司能够给出包括保险费支付方式在内的个性化解决方案,这就颠覆了保险公司的传统商业模式。我认为将来大数据聚类成为很多行业的核心竞争力。
大数据对形式化方法的挑战是非常严峻的,在数据密集型的网络时代,任何传统学科或者传统的行业,其公理、原理和定理组成的语境,遇到互联网+的挑战之后,都将成为一个大数据、小模型、小定律、交叉学科的时代,模型和程序要围绕数据。
创新也会相应的发生变化,应该是创造一个新的语境、新的坐标系,在这个坐标系下研究大数据,否则难以有新的发现。
实践中的研究也要由下而上地深入,数据要胜过程序,价值要胜过知识,关联要胜过因果,要更多地关注有意义的小众,把这些小众累积起来才成为大众。
通过大数据聚类即时发现价值,还要充分认识大数据中的不确定性和价值的隐蔽性。
机器人是大数据认知的典型代表
智能机器人是集新材料、新工艺、新能源、机械、电子、移动通信、全球定位导航、移动互联网、云计算、大数据、自动化、人工智能、认知科学乃至人文艺术等多个学科、多种技术于一身的人造精灵,是人联网、物联网不可或缺的端设备,是人类社会走向智慧生活的重要伴侣。
机器人既是使用大数据也产生大数据,既是大数据的产物也是大数据的推动者,机器人是大数据的认知的典型代表。而在目前,无论是搬运、码垛、研磨、抛光、挖掘等灰头土脸的工业机器人还是微电子产品生产线上精细灵巧大的机器人,机器人在我们的生产生活中已经随处可见。
机器人革命是世界性的、时代性的,机器人替换的首先不是理发师之类的劳动者,而可能是产业工人、文秘人员、医生、服务员、甚至士兵,他们将升级转型成为机器人的创造者和使用者,成为懂得集成、维修、管理机器人的专业人才。跨界渗透和跨界创新诞生的智能制造也将是我国抓住历史机遇的又一次崛起。
此外,机器人还将进一步刮起“穿戴风”。苹果推出了自己的手表,并发表了5个有关医疗的App,启动全新医疗应用。试想如果有一天手机或手表将会成为医疗诊断的工具,用于慢性管理的医患视频互动平台,医疗互联网个人健康与医疗的数据发生器,这将是远程诊疗的开始,并继而成为某种流行病的社会调查,成为病友社交网络,甚至会颠覆传统看病模式,颠覆传统医学研究。
同时我们也可以期待未来的生物机器人,如果器官移植越来越发达,那么“移花接木”就屡见不鲜。改造人类胚胎DNA,会不会避免遗传性疾病?如果将人的思维移植到机器人,那么思想是不是不朽的呢……人脑是很复杂的,科学界现在正把脑科学和认知科学作为当前的重大研究领域,我们也在热切期待生物脑的出现。
当然认知科学不仅是研究生物脑的自然属性,社会属性研究也很重要。我们各种高端生物都会有语言、文字,有了文字,才会有文明。因此我们要研究脑认知的后天属性,研究脑发育、可塑性与自然环境的关系,认知也是后天学习和积累的结果,是与社会环境、社会实践、群体交互等密切相关的,要建立人脑认知的成长机制:如何创建神经元之间新的连接和新的认知。
人的智能除了记忆之外,在学习和思维上,概括地说有两点:一个是逻辑思维,一个是形象思维,形象思维最主要的是类比和联想。
从我的技术观点来看,如果人脑的认知能力不能够全部、完整、统一地形式化,那么我们可以在特定的情境下使认知能力局部形式化,如算术运算、简单游戏、博弈、定点开车等。
在未来,我还想做一个机器驾驶脑,这个驾驶脑主要涵盖了人脑关于驾驶行为的主要功能,长期记忆、短期记忆,还有瞬间记忆,就是感觉记忆,从感知到认知,到行动。
目前,中国脑计划马上要启动了,我个人认为是要将各项研究同步进行,用大数据来认识脑袋、保护脑、模拟脑。
(以上内容系根据李德毅院士在“新一代信息技术产业发展高峰论坛”上的演讲整理而成)
中国工程院院士 李德毅