揭秘数据科学家
- 来源:中国计算机报 smarty:if $article.tag?>
- 关键字:大数据,科学家 smarty:/if?>
- 发布时间:2013-10-26 16:18
有人给予了大数据专家许多美好的称号,比如“数据开采者”、“数据建筑师”等,但其中最时髦的当属“数据科学家”。当记者在互联网上搜索“数据科学家”这个关键词时,看到的都是“21世纪最性感的职业”、“大数据行业最时髦的职业”等溢美之词。埃森哲大中华区技术咨询董事总经理何悠毅(Jouni Hakanen)表示,目前对数据科学家需求极大。
“性感”的数据科学家
记者采访人人游戏高级数据科学家陈弢时,他提到了当年在香港科技大学计算机系读博士的时候曾听教授这样调侃:“只有那些不能严格被算为科学而又想挤进科学的学科,才会在命名的时候加上‘科学’二字作为后缀,比如计算机科学。”如果这样类比,数据科学家就是一群很难算得上是科学家的人。那么事实到底是不是这样呢?
在《大数据研究的科学价值》一文中,中国工程院李国杰院士相信数据界存在普适的共性问题,比如电网数据分析的算法也可应用于供水和交通管理上。李国杰给出的结论是肯定的:数据科学就是关于数据的科学。
“数据科学家”这个新称谓近两年才被叫响。大数据与数据科学家有着千丝万缕的联系,因此容易让人产生一种错觉,数据科学家是大数据时代特有的一类专才。但其实在传统的结构化数据处理过程中,数据科学家的身影就已经出现。记者最近采访了一些中国的大数据企业,其中很多企业并没有设立数据科学家这一职位,但数据分析师、数据工程师等都在做着数据科学家的工作。
《哈佛商业评论》曾指出,数据科学家是21世纪最性感的职业。所谓性感,既说明数据科学家这一新职业颇具诱惑力,但同时也说明大家对此工作的内涵还不了解。陈弢认为,数据科学目前还处在“白盒研究”的阶段,也就是说数据科学家至少在未来5~10年内还需要先协助其他领域的学者解决大数据带来的技术挑战问题,等到知识的积累达到一定程度,才可能在数据界抽象出通用性较强的“黑盒模型”和普适规律。不过在现阶段,数据科学家的工作也是很务实的。LinkedIn首席数据科学家Manu Sharma曾表示,数据科学家的工作主要包括采集数据、整理数据和建立正确的数学模型、测试模型,他们还需要具有一定的编程能力。数据科学家加工处理的数据不仅有助于数据产品的开发,而且可以有助于发现新的商机,推动企业业务的发展。
随着数据量的迅猛增长,今天企业搜集的数据比以往任何时候都要多,不仅在企业内部,在外部的组织网络和更广泛的消费领域亦是如此。企业文化的转变对组织运营产生了巨大影响。
在新数字化企业及其周围的环境里,数据成为了组织的基石。从创新到所有决策,数据推动着企业的发展,并使得各级组织的运营更为高效。可以这样说,数据将成为每个企业获取下一个核心竞争力的要素。
何悠毅认为,数据科学家的核心作用在于发掘数据的最佳商业价值,而并非简单地使大数据项目落地。尽管大数据项目的实施在没有数据科学家的情况下也能够成功地完成,但有鉴于数据科学家将成为大数据项目的工具、系统和输出的最终用户,数据科学家在大数据项目的计划阶段至关重要。
重“实”不重“名”
关于数据科学家的内涵,不同的企业或从业者也有不同的理解。
陈弢认为,数据科学家有广义和狭义两种:从广义的角度说,以数据为处理对象的从业者都可称为数据科学家,比如原来的数据库管理人员、数据库工程师和数据统计分析师都可以被称为数据科学家;从狭义的角度说,只有那些能够利用数据作为资源,推动公司业务增长、创造附加价值的才是真正的数据科学家。
百度大数据首席架构师林仕鼎也认为:如果从广义的角度讲,从事数据处理、加工、分析等工作的数据科学家、数据架构师和数据工程师都可以笼统地称为数据科学家;而从狭义的角度讲,那些具有数据分析能力,精通各类算法,直接处理数据的人员才可以称为数据科学家。
记者采访到的大多数人都认为,数据科学家的工作比较纯粹,就是对数据进行加工和分析,因此数据科学家只要具备数据建模和分析能力即可,不一定要具有编程能力。而品友互动CTO沈学华则表示:“如果数据科学家没有一定的编程能力,很难在我们公司立足。”
记者曾经看到过一幅描述数据科学家基本技能的图,那里面提及的数据科学家应具备的技能达上百种。数据科学家到底应该具备哪些基本素质和技能呢?在Cloud Connect大会上,VMware公司全球高级副总裁范承工接受记者采访时表示,数据科学家通常应具备三种能力:数据分析的能力(数学方面的知识)、计算机方面的能力,以及对某行业的应用深入理解的能力,前两种能力是必需的,而第三种能力是可选的。
“数据科学家是一个新兴职位。在高等教育上不存在这一专门学科。目前,在北美地区有多种针对数据科学家的认证。”中桥调研咨询首席分析师王丛(Kim Wang)告诉记者,“数据科学家不仅要懂IT,能够深入了解数据的构成,进行分析建模,实现分析结果的呈现,而且要遵守数据隐私权的规定,同时还要懂得如何将数据变成商业价值。现有的IT架构很可能成为数据分析的障碍。未来IT可能提供更强大的大数据分析能力。”
谈到数据科学家应具备的能力,何悠毅表示,数据科学家所需的基本技能和能力与其他发挥信息数据最大用途的工作相同,即深度分析的能力、扎实的数据挖掘技能以及对统计分析方法和工具的了解。同时,数据科学家还需引导有价值和有意义的见解,这要求其能够深刻理解行业动态和发展趋势、客户的需求与行为以及企业内部的业务流程等。数据科学家必须掌握所有形式的数据,并不断地利用这些资源推动业务实现创新与突破。
何悠毅特别指出:“最优秀的数据科学家还需具备企业家的心态以及关乎创造力的好奇心。毕竟,最高价值的发现往往源自于对某些非常重大的和创新性的事物的探索,而这些正是其他人不能做到的。”
“数据科学家可以被看作是传统意义上的项目管理者与应用开发者的结合体。他们一方面在涉众管理层面发挥作用,另一方面,在业务应用的开发和数据服务交付方面也能提供指导。”Forrester Research首席分析师及企业架构专家Charlie Dai表示,“其实具体的职务并不重要,真正重要的是以前瞻务实的眼光看待数据管理的架构实践,帮助企业业务务实发展。”
Kaggle总裁兼首席科学家Jeremy Howard认为,一个伟大的数据科学家应具备创新、坚韧、好奇、技术功底深厚这四项素质。如果从字面意思来理解,一方面数据科学家要具有科学家的基本素质,比如客观、诚实、严谨;另一方面,数据科学家主要是用数据说话,应具备数据收集、数据改写、可视化、机器学习、计算机编程等能力,并能使数据驱动决策并主导产品的开发。
其实在企业中,数据科学家并不是孤立的个体,而应该是一个团队。数据科学家之间的交流与协作是必需的,这样才更有利于数据处理工作的开展和数据产品的开发。文思海辉金融事业群商业智能事业部解决方案高级经理马宁认为,一个人难以精通与数据业务相关的方方面面的问题,因此企业应该成立一个数据科学团队,团队中的每个人都可以专注于自身擅长的领域。
最需要动脑筋的人
范承工表示,数据科学家在大数据项目中扮演着非常重要的角色。他将大数据架构分为四层:最下面一层是基础架构,其上是大数据管理层(包括数据库、Hadoop等),再上面是数据分析层(也就是数据科学家的主要工作范围),最上层则是应用场景的实现(即大数据应用的实现)。数据科学家的工作需要业务端的配合,也需要底层基础架构为其提供必要的支撑。数据科学家处于基础架构和业务层之间,必须精通数学模型与算法。范承工认为:“数据科学家是最需要动脑筋的人。”在现有的高等教育体系中,还没有数据科学家产生的土壤,因为他们需要在真实的大数据环境中实践和磨炼。那么,现在企业中的数据科学家是从哪里来的?数据科学家与传统的从事数据处理工作的数据库分析师、数据分析师有何区别呢?
“数据库工程师有很多种,有些人的工作与数据科学家相关。‘数据科学家’虽然是一个新名词,但是从事数据分析工作的人一直存在。过去,数据挖掘主要是在结构化数据的基础上完成的,而现在非结构化数据的重要性更高,将结构化数据和非结构化数据相结合进行处理是必需的。”范承工表示,“虽然数据的结构变了,数据模型改变了,数据处理的要求提高了,但数据科学家的本质和工作的最终目标并没改变,那就是提取智能信息,使企业具有更强的竞争力。”
企业级的数据库工程师,处理的往往是以表结构为主的数据库架构。但在大数据时代,数据科学家面对的是像Hadoop、MapReduce这类的数据分析架构。王丛认为,数据科学家需要承担起数据分析各个环节的不同责任,而数据库工程师或数据分析师只须承担数据科学家部分的责任,而不是全部。
何悠毅分析说,数据科学家更侧重于数据的战略方面,即引导、捕捉、发现创新方式,并利用数据提高商业价值。数据科学家往往与企业密切合作,能够协助实现产品的创新与服务的创新。而数据库工程师则更专注于维护数据库的数据,包括硬件和软件的一些技能。数据分析师则更专注于运营方面,他们可以利用现有的系统、工具和方法,每天对数据进行数据挖掘和统计分析。
马宁认为,在实际工作中,数据科学家与数据分析师的界限其实并不清晰。在某些语境里,数据分析师指仅从事统计建模的人员,他们只负责构建精确的数学模型,不需要掌握业务领域的知识,而数据科学家则需要对数学模型进行业务解释,并利用该模型指导业务流程优化,辅助企业决策。但在某些语境中,数据分析师与数据科学家是指同一类人。
数据科学家阶层正在崛起
McKinsey预测在未来6年,仅美国本土就可能缺少14万~19万具备深入分析数据能力的专业人才,能够通过分析大数据支撑企业做出有效决策的数据管理人员和分析师也有150万人的缺口。从这个角度说,数据科学家是大数据时代最紧缺的人才并不为过。
但是目前还没有专门针对数据科学家的教育。高水平的数据科学家最有可能来自于数据分析领域具有长期经验和过硬本领的人。何悠毅告诉记者:“想要成为一个优秀的数据科学家,就必须对业务有极大的激情,再加上拥有好奇心、可视化的技能和创新的力量。”
中桥调研咨询曾经在2013年7月针对中国市场做过一次调研,结果显示:中国目前实现近实时和实时分析的企业不到5%,远远落后于欧美市场53%的比例;在大数据处理中,中国用户目前还主要局限在结构化数据方面,其大数据工作的主要目标是通过批量分析控制成本,提高资金回流和原材料的周转效率,而尚未进入通过对半结构化和非结构化数据进行分析,捕捉新的市场空间的阶段;中国的大多数企业正在评估如何部署大数据分析系统。
“数据科学家能够保障大数据架构的构建顺利进行,是通过IT持续创造价值的新起点。如果没有数据科学家,数据的‘垃圾进,垃圾出’现象将使得大数据的IT投资回报率降低。”王丛补充说,数据科学家的知识储备比例应该是:业务管理流程经验占40%,数据分析流程和与数据相关的基本理论知识占30%,支持大数据分析的IT架构方面的知识占30%。
数据科学家在北美已经形成阶层。王丛认为,中国的大数据市场还处于“清理整合数据”的阶段,不过在未来2~5年内,数据科学家将逐步成为企业中的必设职位,而在企业中负责应用管理的中层人员如果增加综合知识的储备,更容易被培养成数据科学家。
百度公司是一个典型的大数据公司,公司几乎所有的业务都与大数据密切相关,比如搜索引擎、广告等。在百度公司大数据首席架构师林仕鼎看来,大数据业务的发展需要多种人才,包括数据科学家、数据架构师以及数据工程师等。
在这里,数据科学家是一种狭义上的定义,指的是那些具有数据分析能力,精通各类算法,直接处理数据的人员。经数据科学家加工和分析后得到的信息可以作为业务处理流程的输入数据,用来驱动业务的发展。
数据架构师则要精通业务,了解业务的需求和业务系统的架构,这样才可能把数据和业务进行对接。
还有一类大数据人才是数据工程师,他们具有很强的编程能力特别是系统级编程能力。他们的工作是搭建数据存储、管理以及处理的平台,支撑数据科学家提出的数学模型或算法的运行。
大数据 大不同
大数据一定是那些用传统的数据处理技术和方法没法处理、管理和使用的数据。大数据的“4V”特征简而言之,就是需要对多源多样的动态数据做实时的关联分析和挖掘。这也决定了传统的商业智能、数据库技术等已无法发挥其作用。举例来说,传统数据库面对的数据容量通常是TB级,而现在互联网行业需要处理的数据一般都是PB级甚至是EB级。不仅如此,数据的来源正变得多样化,而且不是静态的,这些都给数据的处理带来了新挑战。大数据要求将这些不同来源、不同结构的数据全部结合在一起进行关联分析,并从中提取所需的价值。
因此,大数据需要全新的大数据处理系统,也需要专业的大数据人才。
上文提到的数据科学家、数据架构师和数据工程师,其实是一个有机的整体,是有效处理大数据所不可缺少的专业人才。林仕鼎表示:“大数据行业迫切需要这三类人才,而企业也各有分工,有的是大数据技术的建设者,更多的是大数据技术的应用者。企业可以根据自身的定位和需求来选择需要的人才。”
一个企业的大数据业务通常涉及系统、数据和业务三个层面的问题。
系统是一个提供数据管理和服务并支持模型和算法的基础架构,数据工程师的主要工作就是负责搭建这样一个运行平台。
数据是指数据处理和分析,这是数据科学家的工作职责。
业务是指企业的业务需求、流程等,数据架构师要熟悉本行业的业务需求,并且要知道如何让大数据服务于业务。
“数据科学家必须了解数据意味着什么,并且能够通过提供一定的算法或模型将数据的价值挖掘出来。”林仕鼎补充说,“以前,企业通常是采购成熟的IT解决方案,比如OA、ERP或CRM系统等,企业的技术人员做一些二次开发然后管理和维护这些系统即可。但是现在,市场上没有成熟的完全适合企业需求的大数据解决方案。因此,企业迫切需要像数据科学家、数据架构师甚至数据工程师这样的专业技术人才。”
数据科学家注重实践
现在,社会上关于Hadoop技术培训的消息铺天盖地。掌握Hadoop技术的人才实际上属于数据工程师这一类,但是仅仅掌握了Hadoop这一工具,距离实施大数据项目所应具备的技能还有很大差距。
北京航空航天大学与慧科教育联合开办的大数据技术与应用研究生班,将培养理论结合实际,同时将更突出实战性的大数据通用人才作为培养目标。许多老师都是在业界工作多年、具有丰富实践经验的专家。林仕鼎本人是这个研究生项目的专业主任。
“我们教授的是大数据基础知识,同时鼓励学生更多地参与企业实践,让他们所学的大数据知识在实践中得到检验。”林仕鼎表示,“我们不会平铺直叙讲述知识点,而是通过应用场景来串联知识点,然后再解释其中的原理。同时,我们也会更加强调实践的重要性,安排更多大作业项目。大数据需要的是复合型的人才,不仅要具备扎实的基础知识,更重要的是有充足的实践经验。”
从事互联网广告分析与营销的品友互动公司拥有一个二十几人的数据科学家团队。品友互动CTO沈学华称这群二三十岁的年轻人为公司的“宝贝”。沈学华主要负责公司的工程开发、产品规划和设计,数据科学家团队占了其团队的半壁江山,其主要工作是数据分析、数据挖掘和云平台搭建,以及建立数据基础处理架构。
热爱数据是前提
品友互动的数据科学家要具备什么样的素质呢?沈学华概括为以下几点:第一要对数据分析工作非常热爱;第二具有一定的技术技能,比如掌握计算机、数据库、统计学甚至物理学方面的知识都可以;第三具有一定的编程能力。“数据科学家必须对数据感兴趣。”沈学华强调说,“数据科学家必不可少的技能就是数据分析的能力,也就是从数据中挖掘出有用信息的能力。”
在有些大数据企业中,数据工程师与数据科学家从事的是完全不同的工作,但在品友互动却没有这样的区别。沈学华表示,在他的心目中,数据科学家一定要有建模的能力和数据分析的能力,同时还要具有编程能力,不仅能让大数据项目落地,而且能进一步获知大数据给业务带来了什么样的影响。
品友互动面对的是想在互联网上做广告的企业级客户。在一个项目中,品友互动的数据科学家不会与客户直接见面,他们通过项目执行人了解客户的需求。企业广告主提出需求,数据科学家根据用户需求建立数学模型,并对模型的质量和效果进行评估,还要对广告投入的效果等进行反复实验。在品友互动,数据科学家的最终目标是将数据变成一个产品,比如数据管理平台或人群受众分析产品等。
自己培养数据科学家
在品友互动其实并没有数据科学家这个职位,有的只是算法工程师、数据工程师等,他们从事的是数据科学家的工作。沈学华认为,无论是国外还是国内,数据科学家都是紧缺的人才,很难直接招聘到合适的,所以品友互动愿意自己下功夫培养。“通过多年的努力,我们已经建立了一套快速培养大数据人才的体制。新招聘来的人经过我们的培训,通常在一个月内就能掌握简单的Hadoop编程技巧,并可做简单的数据分析,两个月左右就能熟悉公司的商业业务和程序。”沈学华介绍说,“我喜欢招聘那些对数据分析充满兴趣、激情和好奇的人。他们中的有些人可能技术基础稍弱,但出于对数据分析的热爱,他们学习起来会更专注,效率也更高。我们培养的是在大数据的某一方面具有专长的人,而不是多面手。”
品友互动为这些大数据技术人员营造了类似硅谷公司的开放的文化氛围,会定期或不定期地举办技术交流活动。数据科学家团队还会与企业内部的其他开发人员,比如界面开发、数据支持或底层基础架构的开发人员进行广泛而深入的交流,发挥各自的专长,相互配合,共同推动产品的开发。“我相信‘实践出真知’。大数据人才的培养不是读几本书就可以的,而需要边工作边学习,关键是通过解决具体的问题,不断提升自身的能力。”沈学华表示。
记者在采访过程中看到,数据科学家大多集中在互联网领域。沈学华认为,其实所有企业都需要这样的大数据人才。虽然是互联网企业创造了“数据科学家”这个名词,但是像金融、电信这样的传统企业在大数据项目中也需要数据科学家。数据科学家现在是个热门的职位,传统企业很可能会从互联网行业“挖角”。
为了吸引更多的大数据人才,品友互动还举办了一个全球性的广告算法大赛,团结了一大批计算广告学方面的人才。通过这个大赛,品友互动准备创建一个计算广告学与大数据相融合的社区,希望能从中发现一些数据科学家人才,以充实公司的开发团队。“通过大赛,我们确实招聘到了所需的人才,而其中很多都是自学成才的。”沈学华表示。
人人游戏高级数据科学家陈弢根据自己多年来在大数据领域的工作经验总结出数据科学家的主要工作内容:数据处理平台,包括公司的基础数据平台以及各个具体业务线的指标数据和日志数据平台的搭建;历史数据的分析挖掘,包括与各种产品线相关的业务分析、用户画像、用户行为分析、用户留存分析等,目的是让业务决策者对于现状有清晰、系统、完整的认识,从而辅助其做出下一步的决策;数据驱动的预测性分析,比如建立推荐模型,并利用模型对未来的情况进行预测。这部分工作是大数据挖掘工作中最有意义的部分,也是与产品线联系最紧密的部分。
从统计思维到数据思维的突破
数据科学家到底应该具备哪些基本的素质和能力呢?
陈弢认为,数据科学家首先要具备科学家的基本素质,即客观、诚实和严谨。其次,数据科学家需要有数据库系统及数据管理的知识,以应对大量数据的导入和存储,同时必须掌握机器学习中的算法和模型处理预测性的需求。再次,相对于知识而言,理念上的突破对于数据科学家显得更为重要。很多数据科学家都具有深厚的统计学背景,而统计学的目标是从各种类型的数据中提取有价值的信息,但不强调对事物的洞察力(Insight),不强调深度的知识。所以,如何实现从固有的统计思维到数据思维的突破是一大挑战。最后,交流合作的能力也是数据科学家自身普遍需要解决的问题。这里说的交流不仅仅指数据科学家内部的知识分享、技能学习,更重要的是向业务人员、负责运营的同事、领域内的专家虚心请教和学习。分析人员不能仅醉心于技术,更要走进业务去“采风”,一方面普及数据挖掘的知识和它的作用,另一方面收集需求。
对数据深度挖掘
自2002年从北京大学数学院毕业之后,陈弢师从香港科技大学计算机系的张连文教授,研究机器学习的模型和算法。在与数据打交道的十年中,陈弢利用机器学习的各种模型,包括决策树、随机森林、贝叶斯网络、SVM等,处理过分类、聚类、相关性分析等数据挖掘问题。这些问题分别来源于中医、市场营销、计算广告学、社会学等不同领域。在工作过程中,陈弢逐渐熟悉了一些大数据收集、存储和管理的系统,成了名副其实的数据科学家。
在人人游戏,陈弢主要从事的是数据的深度挖掘工作。一方面, Ader广告平台以每天500GB的速度收集了在上亿台移动设备上的各种类型广告的曝光、点击甚至转化数据。基于这些数据,陈弢利用预测性分析的算法,优化了广告投放,帮助整个平台提高点击和转化效率,同时通过多维度的定向投放来帮助广告主优化其投放效果。另一方面,人人游戏的玩家们在玩游戏的过程中会产生各种各样的行为。基于这些行为数据,陈弢所在的团队又尝试对用户按其行为分群,研究不同群体玩家的特性,从而为游戏玩法改进、虚拟物品定价等提供建议。
数据科学家不是一个噱头
数据科学家具备从大数据里掘金的能力,能对各行业的数据,包括医疗数据、移动设备数据、社交媒体流数据等进行预测,并给企业带来巨大的商业价值。陈弢认为,未来5年,数据科学家将出现供不应求的局面。
数据科学家不是一个噱头。企业已经从大数据中开始赚钱了。比如Google通过提供免费的搜索服务来搜集网民的信息,然后根据意图推送广告。诸如此类的一系列商业模式的背后都蕴藏着数据科学家所擅长的预测、推荐等技术。在中国,互联网的巨头们是富数据企业,它们掌握了网民的意图数据、购物偏好数据和社交关系数据。众多数据科学家帮助这些数据成功落地,创造了巨大的价值。然而,数据科学家很难在其他数据匮乏的企业找到用武之地。
数据科学家主要从事数据分析工作,从海量数据中挖掘有价值的信息。如果一个项目只是侧重数据的获取与存储,那么可能需要的是熟悉平台架构的数据库工程师或架构师;如果项目侧重数据分析,那么数据科学家就是必需的。
技术与业务相结合
文思海辉金融事业群商业智能事业部解决方案高级经理马宁认为,数据科学家对数据的分析可划分为两大类:探索型和预测型。探索型旨在寻求复杂数据的内部结构,典型应用如著名的沃尔玛超市“啤酒与尿布”的案例。预测型旨在利用历史数据预测未来,典型应用如银行定量判断一个信用卡客户潜在的违约可能性。
马宁将一个数据科学家需要具备的基本的素质和能力归纳为以下四点:第一,数据科学家应具有数据加工处理的能力,熟悉关系型数据库的SQL语言;第二,数据科学家应具有统计建模的能力,熟悉SAS、SPSS、R这样的统计软件;数据科学家至少应该熟悉某一领域的业务知识,如银行、证券、电商、医疗等;第四,数据科学家应具备将统计模型的结果用业务熟知的语言来表述,或利用可视化技术将复杂结果做清晰展现的能力。
马宁本科学的是数学专业,硕博连读期间从事的是医疗数据分析,工作后则主要从事金融行业的数据分析。“在公司中,我的工作是为金融领域的客户提供数据分析与挖掘解决方案,主要涵盖客户智能与风险管理两大领域:前者旨在帮助金融机构更好地了解其客户,提供基于客户生命周期的有针对性的服务策略,后者旨在帮助金融机构防范信用、流动性和市场风险,提供反洗钱、反欺诈的侦测。”马宁介绍说。
在不同类型的企业中,数据科学家的具体工作内容也会有差异。比如,文思海辉作为全球领先的服务提供商,承接了不同行业的开发项目,其数据科学家团队必须熟悉多个领域的业务。“我们面对的主要是金融业的客户,因此我们的数据科学家团队必须熟知银行、证券、保险领域的业务需求,但在一般的商业企业中,其数据科学家只需要熟悉该企业自身的业务即可。”马宁表示。
数据科学家是一个团队
大数据的概念近两年非常火,但软硬件厂商以及服务提供商目前在这个领域还处于摸索阶段,在国内甚至国际上真正能落地的大数据项目并不多。需要说明的是,大数据并不是产生数据科学家的必要前提,尽管两者存在着千丝万缕的联系。数据科学家在传统的结构化数据领域一样可以大展拳脚,国内外的无数案例证明了这一点。不过,马宁指出,相对于传统数据,大数据对数据科学家提出了更高的要求,例如将非结构化数据转换为结构化数据的能力,以及利用Hadoop这样的分布式架构实现快速海量数据分析的能力等。
任何一个新兴领域的概念基本都会经历提出、发展、泡沫、泡沫破灭、价值回归、成熟的周期。马宁认为,数据科学家正处在发展阶段,并不是噱头,但已经显露出一些泡沫的端倪。未来泡沫的破灭并不意味着数据科学家的消亡,反而是它走向成熟的必由之路。
一个人难以精通数据业务的方方面面。因此,马宁更建议企业成立一个数据科学团队,团队内的每个人都专注于自身擅长的领域。文思海辉正在这条路上探索前进。中国的数据科学家阶层已经初步形成,并伴随着大数据等新技术的发展不断成长壮大。马宁认为,数据科学家更侧重数据分析与挖掘,其来源主要是数据分析师(在某些语境下二者就是同一概念),而不太可能是数据库工程师。某些企业将来会为数据科学团队设立单独的CDO(Chief Data Officer)职位。
金智教育CTO、北航云计算硕士项目主任陈滢博士认为,虽然在中国,互联网行业已经有了比较多的大数据实践,而且像金融、电信等行业也确实感受到了大数据给业务带来的压力,但是从整个大数据市场来看,还是“雷声大、雨点小”。这种情况与三四年前云计算刚兴起时类似。“像云计算、大数据这样的新兴行业,人才培养和储备应先行一步。”陈滢表示,“一个新行业刚出现,没有标准也没有太多成功经验可借鉴,我们只能摸着石头过河,自己探索大数据人才培养方法和规律。”
培养复合型人才
在传统的大学培养和教育体制下,我们在一些与大数据相关的专业学科领域已经储备了大量人才,包括统计学、数学、人工智能、可视化等方面,但是大数据需要的是复合型的人才,需要将深厚的技术背景与所在行业和业务领域的需求相结合。“大数据需要那些对业务有非凡洞察力的专业人才。数据科学家就是这样一类跨多个领域的复合型人才。”陈滢表示。
慧科教育与北京航空航天大学继2010年开办云计算专业研究生班后,又于2013年开办了国内首个“大数据技术与应用”研究生班。作为北京航空航天大学软件学院特聘教授以及慧科教育的特聘专家,陈滢也参与了相关的教学活动。“我们培养的是普适的大数据人才,让学生掌握广泛的大数据知识,并为他们提供到企业实习的机会。”陈滢介绍说,“我们十分重视培养应用型的人才,并强调企业实践。从我们这个班毕业的学生都可以马上投入到实际的大数据项目中去。我们80%的老师不是来自高校,而是企业中的专家。”
在大学中很难培养出实用的大数据人才,因为学校中没有真正的大数据环境。这也是为什么大数据技术与应用研究生班特别强调企业实践的原因。“我本人爱好摄影。摄影圈里有一句名言,‘你的照片拍不好,因为你离景物不够近’。大数据的学习也一样,如果你不能亲自到企业的真正的大数据环境中去学习、实践,就不可能将大数据的知识融会贯通。”陈滢介绍说,“我们与百度、阿里、腾讯等企业合作,为学生提供了近似真实的仿真大数据环境。”
大数据技术与应用研究生班也将采取两条腿走路的人才培养策略:一方面引进来,仿照企业实际的大数据环境,为学生提供一个仿真的大数据学习环境;另一方面送出去,鼓励学生更多地走入互联网等大数据企业去实践。“一个云计算专业研究生班的学生曾经告诉我,他现在已经可以给别人讲云计算的课程。”陈滢兴奋地表示,“许多学生是带着实际工作中的问题来学习的,这让学习变得有的放矢。很多学生现在已经成了各自企业云计算项目的中坚力量。经过近三年的摸索,我们在云计算人才培养上摸索出了一套成功的经验,这为大数据人才的培养提供了借鉴。”
数据科学家是桥梁
“数据科学家不是一个项目经理,也不一定要懂编程,但是一定要懂得算法,知道用什么样的方法可以更好地挖掘出大数据的价值。”陈滢表示。从某个角度说,数据科学家就像是一个转换器,在大数据项目中起到了承上启下的作用,他们可以把业务需求转化成数学算法或公式。“数据科学家是一座桥梁,它懂‘两个世界的语言’。”陈滢表示。
2013年1月开学的大数据技术与应用研究生班,包括普通班60人,高端班43人,学制两年半。这一培养数量与实际的大数据人才需求相比,可谓杯水车薪。“我们希望找到一种可以快速复制的人才培养模式,就像之前的云计算专业研究生班一样,能够在更多的城市和高校中进行推广。”陈滢介绍说。
本报记者 郭涛