互联网+赋予大数据无尽想象

  • 来源:计算机世界
  • 关键字:互联网,大数据,LinkedIn
  • 发布时间:2016-07-05 14:11

  通过大数据资源的开发,“互联网+”才能水到渠成。

  张溪梦的新名片上印着Growing.IO公司CEO,这是一家专注大数据应用的创新企业,而仅仅4个月之前,他的身份还是LinkedIn全球商业分析部总监。

  2010年,张溪梦加入LinkedIn的“数据科学家”部门,负责基于数据挖掘的产品开发,比如LinkedIn 最著名的“你可能认识谁”,“你可能喜欢的工作”,“你可能会聘用的人”等产品功能都是这个部门开发的。但LinkedIn高层认为,即使如“数据科学家”这样的“贴地研发”的部门依然与实际业务“贴”得不够紧密。于是入职9个月后,张溪梦得到了第一次提拔,组建了一个与业务紧密联系到“疯狂”的新部门——商业分析部。

  “LinkedIn是我工作过的公司里最依赖数据的。”张溪梦说,LinkedIn的所有业务都基于数据模型——LinkedIn.com上的用户增长和体验生成大量数据,LinkedIn根据这些数据开发新产品为用户提供新产品和服务,这些新产品和服务又进一步刺激增长,增加客户黏度。这是LinkedIn最基本的业务模型,维系这三点反复作用并在其中流动的正是数据。

  通过在诚信、精准的职业用户平台上搭建了与企业用户、个人紧密联系的高价值生态体系,

  张溪梦领导的部门叫商业分析部,他解释为“负责所有和钱相关的分析”。商业分析部直接支持的业务部门有五个——产品、销售、市场推广、开发和运营,其中运营又分不同部门,比如广告运营、销售运营、市场运营、商业运营等。

  “你可能认识的人”是LinkedIn最受欢迎的功能之一,它可以帮助用户找到自己想要保持联系的人。而从后台运营角度看,这项功能要求数据时刻保持更新状态,这就需要时刻跟踪用户在不同应用间的数据。而最早这项功能基于传统的关系型数据库,因此计算一次需要几天到一个星期的时间,LinkedIn的数据基础设施团队搭建了一个包括针对特定工作负载设计的在线、离线、近线系统的数据架构——在线系统处理用户的实时交互信息;离线系统主要是Hadoop和Teradata的数据仓库,处理批量数据和分析工作负载;近线系统处理类似“你可能认识的人”这类的功能、搜索以及LinkedIn社交图谱数据,这类数据对处理和更新速度的要求不像在线系统那么高。

  LinkedIn内部大概有25种不同的数据库和数据解决方案,其中一半以上是由LinkedIn内部开发的。和其他公司一样,过去LinkedIn的数据分析结构是一个“金字塔”形状,最底层是公司的全部业务数据,数据之上分为分析层、报表层、深度分析层、战略分析层和决策层等。“金字塔最精华的部分是塔尖,底层花费90%的时间却没有多大价值。”于是,张溪梦力主将底层做小,由“金字塔”变为“菱形”。首先,需要把待分析数据做得很“薄”,再把很薄的数据切得更“细”,然后把已经又“细”又“薄”的数据放入Teradata、Aster Date以及内部开发系统里继续做分析。这种“在数据模型上做模型”的方式不仅降低了存储成本,也保证了数据分析速度从几小时到20毫秒的飞跃。另外,对于非结构化数据,LinkedIn会首先将非结构化数据结构化。商业分析部技术部门开发了很多基于Java的工具,比如将一份简历的内容打散,进行重组——现任及过去任职的3家公司的信息最被看重,于是会顺序出现在最前面,包括起止时间、任职时间、职位等。

  孙泠

……
关注读览天下微信, 100万篇深度好文, 等你来看……
阅读完整内容请先登录:
帐户:
密码: