数据挖掘:市场将达千亿美元
- 来源:投资者报 smarty:if $article.tag?>
- 关键字:数据挖掘 smarty:/if?>
- 发布时间:2010-05-31 11:19
数据无处不在,信息已经从稀缺转为过剩,在带来巨大新利益时,也让人头疼。
在2000年斯隆数字天空观测开始的时候,它在新墨西哥州的天文望远镜在最初几周采集的数据就超过了整体天文史上所有累积数据总和。现在,十年过去之后,它的存档包含了140TB(2的40次方字节)海量信息。它的继任者,2016年将在智利启用大型天气观测望远镜,每五天就会收集到等量数据。
如此天文数字的信息量,地球上也能找到。零售巨头沃尔玛每小时处理超过一百万名客户交易,输入数据库中的信息预计超过2.5PB(2的50次方字节)——相当于美国国会图书馆馆存书籍信息的167倍。社交网站Facebook存有400亿张图片。人类基因组测序分析了30亿组基因序列,耗费十年时间在2003年首次完成,现在一个星期就可以完成。
但数据的极速增长也引起了很多新问题。尽管有大量工具来获取、处理和共享所有这些数据——比如传感器、电脑、移动电话等等——但数据已经超过其可存储空间了。
另外,如何对已有数据进行有效利用也值得研究。因此,信息管理产业发展迅猛,它们帮助机构发掘和使用不断增长的数据。近年来,甲骨文、IBM、微软和SAP耗费超过150亿美元收购专门从事数据管理和分析的软件公司。这个产业预计有1000亿美元市场容量,并以每年10%的速度增长,是软件产业整体增速的两倍。
首席信息官们(CIOs)在管理层越来越吃香,而一种叫信息科学家的新职位已经出现,它是软件程序员、统计学家和作家或艺术家的结合,负责把隐藏在庞大数据下的信息尽快挖掘出来。Google首席经济学家哈尔?瓦里安估计数据统计员将成为“最性感”的工作。他说缺的不是数据,而是从数据中开启智慧的能力。
从稀缺到过量
信息爆炸有很多原因,最明显的就是科技进步。随着数字设备处理能力大幅提升,价格大幅下降,传感器和其他工具正在把之前无法数据化的信息数据化。人们还可以使用更强大的工具,比如全世界有46亿手机用户,有10亿到20亿人使用互联网。
不仅如此,现在更多的人用信息交互影响。1990到2005年全世界超过10亿人跻身中产阶级。他们变富有的同时也开始接受更好的教育,这就加速了信息增长。在政治、经济和法律界都显示了这样的结果。纽约大学商务教授思南?瑟拉尔说:“科学革命之前通常是测量工具革命”。就像显微镜发现了病菌从而革新了生物学,电子显微镜改变了物理学一样,所有这些数据也把社会科学翻了个底朝天。学者们现在可以从大众层面而不是个体来理解人类行为了。
数字信息每五年增长10倍。在计算机行业被普遍认同的摩尔定律说,计算机芯片处理能力和信息储存量大约每18个月翻一番,而价格降低一半。软件程序也在不断优化。普林斯顿大学的计算机科学家爱德华?弗林承认,算法改进使计算机应用在过去几十年里为摩尔定律发挥起到关键作用。
大量信息是共享的。通信系统制造商思科预计,到2013年互联网上流动数据量将达到每年667EB(2的60次方字节)。数据增长速度将持续超过承载传送网络发展速度。
信息从稀缺到过量的转变带来广泛影响。微软研究和战略主管克雷格?蒙迪说,“我们看到的是围绕着信息的经济形式,对我而言这是社会甚至宏观经济层面一个大转变。”数据正在成为商业的新原材料,和资本及人力几乎相同的经济投入。沃尔玛的首席信息官罗林?福特说:“每天我醒来就问自己,我怎样才能更好地让数据流动,更好地管理数据,更好地分析数据?”
以前复杂数据分析仅用于导弹轨迹和金融对冲模型计算,而现在正用于生活很多方面。比如微软“必应”搜索引擎的一个组成部分叫“预测”,可以搜索2250亿个航班和价格记录,从而建议客户现在就买飞机票还是等待价格下降。同样的想法可以拓展到酒店、汽车和类似行业上。个人理财网站和银行在收集客户数据从而显示出宏观经济趋势,帮助其开拓辅助业务。甚至有数字玩家被发现操控日本相扑比赛。
去粗取精
“数据排放”——互联网用户留下的点击记录可以发掘商业价值,这正成为网络经济主流。Google搜索引擎就是一个例子,一个条目的点击数部分地决定其与一个搜索请求的相关性。如果排名第八的搜索词最多人点,算法就会把它往上放。
随着世界变得更加数字化,整合与分析数据正给其他领域也带来巨大好处。例如微软的蒙迪先生和Google CEO艾里克?施密特应总统之邀改革美国医疗保健系统。蒙迪解释说,“刚开始施密特和我都说:‘看,如果要改革医疗保健系统,基本上需要构建一个围绕着数据的医保经济,而这些数据和人相关’。这样你就不会把数据当做提供健康服务而产生的东西,而把它当做一项核心资产,以用来研究如何更好地提供健康服务的各个方面。这是一种反向思维。”
当然,数字记录应该可以让医生工作更加轻松,降低医患成本,提高服务质量。而数据经过整合还可以发现有害药物反应,确认最有效治疗方法和预测尚未发作疾病。计算机已经试着做这些事,但还需要精确编程。在大数据世界里,交互关系几乎会自动浮现出来。
有时数据揭示出的东西超出我们预期。举例来说,加利福尼亚州奥克兰市在一个个人网站“奥克兰犯罪追踪”发布了罪犯被逮捕的地点和时间。其中一些点击显示警察每晚都在一条热闹的街道检查卖淫,除了周三,对此他们也许想保密。
大数据的危险可能远不止于此。在最近的金融危机中,银行和信用评级机构显然一直以来获得了大量信息,而这些信息并不能反映真实世界的金融危机。这是大数据带来的第一次危机,还会有更多的危机。
信息管理涉及生活所有方面。20世纪初,电报和电话形成的新信息流支撑了大规模生产。今天海量数据使得公司在任何地方都可以进入小的利基市场。经济生产曾经基于工厂,经理们盯着每台机器和每个生产工艺,使其更加高效。现在统计学家们从业务中产生的信息里挖掘新想法。
微软的蒙迪先生说,“以数据为中心的经济还处于发展初期,你可以看到它的轮廓,但它技术上、基础结构上,甚至商业模型上的影响还没有被完全理解。”此次专题报道将指向它开始浮现的地方。
(来源:《经济学人》(有节选) 施路译)
……
在2000年斯隆数字天空观测开始的时候,它在新墨西哥州的天文望远镜在最初几周采集的数据就超过了整体天文史上所有累积数据总和。现在,十年过去之后,它的存档包含了140TB(2的40次方字节)海量信息。它的继任者,2016年将在智利启用大型天气观测望远镜,每五天就会收集到等量数据。
如此天文数字的信息量,地球上也能找到。零售巨头沃尔玛每小时处理超过一百万名客户交易,输入数据库中的信息预计超过2.5PB(2的50次方字节)——相当于美国国会图书馆馆存书籍信息的167倍。社交网站Facebook存有400亿张图片。人类基因组测序分析了30亿组基因序列,耗费十年时间在2003年首次完成,现在一个星期就可以完成。
但数据的极速增长也引起了很多新问题。尽管有大量工具来获取、处理和共享所有这些数据——比如传感器、电脑、移动电话等等——但数据已经超过其可存储空间了。
另外,如何对已有数据进行有效利用也值得研究。因此,信息管理产业发展迅猛,它们帮助机构发掘和使用不断增长的数据。近年来,甲骨文、IBM、微软和SAP耗费超过150亿美元收购专门从事数据管理和分析的软件公司。这个产业预计有1000亿美元市场容量,并以每年10%的速度增长,是软件产业整体增速的两倍。
首席信息官们(CIOs)在管理层越来越吃香,而一种叫信息科学家的新职位已经出现,它是软件程序员、统计学家和作家或艺术家的结合,负责把隐藏在庞大数据下的信息尽快挖掘出来。Google首席经济学家哈尔?瓦里安估计数据统计员将成为“最性感”的工作。他说缺的不是数据,而是从数据中开启智慧的能力。
从稀缺到过量
信息爆炸有很多原因,最明显的就是科技进步。随着数字设备处理能力大幅提升,价格大幅下降,传感器和其他工具正在把之前无法数据化的信息数据化。人们还可以使用更强大的工具,比如全世界有46亿手机用户,有10亿到20亿人使用互联网。
不仅如此,现在更多的人用信息交互影响。1990到2005年全世界超过10亿人跻身中产阶级。他们变富有的同时也开始接受更好的教育,这就加速了信息增长。在政治、经济和法律界都显示了这样的结果。纽约大学商务教授思南?瑟拉尔说:“科学革命之前通常是测量工具革命”。就像显微镜发现了病菌从而革新了生物学,电子显微镜改变了物理学一样,所有这些数据也把社会科学翻了个底朝天。学者们现在可以从大众层面而不是个体来理解人类行为了。
数字信息每五年增长10倍。在计算机行业被普遍认同的摩尔定律说,计算机芯片处理能力和信息储存量大约每18个月翻一番,而价格降低一半。软件程序也在不断优化。普林斯顿大学的计算机科学家爱德华?弗林承认,算法改进使计算机应用在过去几十年里为摩尔定律发挥起到关键作用。
大量信息是共享的。通信系统制造商思科预计,到2013年互联网上流动数据量将达到每年667EB(2的60次方字节)。数据增长速度将持续超过承载传送网络发展速度。
信息从稀缺到过量的转变带来广泛影响。微软研究和战略主管克雷格?蒙迪说,“我们看到的是围绕着信息的经济形式,对我而言这是社会甚至宏观经济层面一个大转变。”数据正在成为商业的新原材料,和资本及人力几乎相同的经济投入。沃尔玛的首席信息官罗林?福特说:“每天我醒来就问自己,我怎样才能更好地让数据流动,更好地管理数据,更好地分析数据?”
以前复杂数据分析仅用于导弹轨迹和金融对冲模型计算,而现在正用于生活很多方面。比如微软“必应”搜索引擎的一个组成部分叫“预测”,可以搜索2250亿个航班和价格记录,从而建议客户现在就买飞机票还是等待价格下降。同样的想法可以拓展到酒店、汽车和类似行业上。个人理财网站和银行在收集客户数据从而显示出宏观经济趋势,帮助其开拓辅助业务。甚至有数字玩家被发现操控日本相扑比赛。
去粗取精
“数据排放”——互联网用户留下的点击记录可以发掘商业价值,这正成为网络经济主流。Google搜索引擎就是一个例子,一个条目的点击数部分地决定其与一个搜索请求的相关性。如果排名第八的搜索词最多人点,算法就会把它往上放。
随着世界变得更加数字化,整合与分析数据正给其他领域也带来巨大好处。例如微软的蒙迪先生和Google CEO艾里克?施密特应总统之邀改革美国医疗保健系统。蒙迪解释说,“刚开始施密特和我都说:‘看,如果要改革医疗保健系统,基本上需要构建一个围绕着数据的医保经济,而这些数据和人相关’。这样你就不会把数据当做提供健康服务而产生的东西,而把它当做一项核心资产,以用来研究如何更好地提供健康服务的各个方面。这是一种反向思维。”
当然,数字记录应该可以让医生工作更加轻松,降低医患成本,提高服务质量。而数据经过整合还可以发现有害药物反应,确认最有效治疗方法和预测尚未发作疾病。计算机已经试着做这些事,但还需要精确编程。在大数据世界里,交互关系几乎会自动浮现出来。
有时数据揭示出的东西超出我们预期。举例来说,加利福尼亚州奥克兰市在一个个人网站“奥克兰犯罪追踪”发布了罪犯被逮捕的地点和时间。其中一些点击显示警察每晚都在一条热闹的街道检查卖淫,除了周三,对此他们也许想保密。
大数据的危险可能远不止于此。在最近的金融危机中,银行和信用评级机构显然一直以来获得了大量信息,而这些信息并不能反映真实世界的金融危机。这是大数据带来的第一次危机,还会有更多的危机。
信息管理涉及生活所有方面。20世纪初,电报和电话形成的新信息流支撑了大规模生产。今天海量数据使得公司在任何地方都可以进入小的利基市场。经济生产曾经基于工厂,经理们盯着每台机器和每个生产工艺,使其更加高效。现在统计学家们从业务中产生的信息里挖掘新想法。
微软的蒙迪先生说,“以数据为中心的经济还处于发展初期,你可以看到它的轮廓,但它技术上、基础结构上,甚至商业模型上的影响还没有被完全理解。”此次专题报道将指向它开始浮现的地方。
(来源:《经济学人》(有节选) 施路译)
关注读览天下微信,
100万篇深度好文,
等你来看……