在大数据中寻找别人的“集体智慧”
- 来源:中国信息化周报 smarty:if $article.tag?>
- 关键字:大数据,互联网 smarty:/if?>
- 发布时间:2016-10-11 15:13
大数据部门应该放在运营团队还是技术团队?在我看来,纠结于此类问题的企业,距离大数据的法门尚远。大数据应该是CEO直接领导的战略级部门,是一把开启新世界大门的钥匙。如今大数据已在营销、风险控制等领域大放异彩,在可预见的未来,基于大数据的诸多模式创新,将带给我们无限的想象空间。
最近,我去了一趟美国,看到大数据的几个变化,这些变化有可能极大地改变世界。第一个变化是开始从被动搜集数据转变为主动搜集数据。美国一家公司现场给我们表演,电视里正在播放新闻,他们把手机放在电视机旁,手机很快识别出这是CNN新闻频道,以及正在播出什么内容。这意味着,非结构性的数据编程结构化,数据开始从被动搜集数据转变为主动搜集数据。
第二个变化是非实时转实时。滴滴打车的数据可以说明不同地点的人流情况,但是零售业得到了这些数据,又如何接触到它的用户群呢?大家都知道世界只有一个,DSP(Demand-Side Platform,需求方平台)作为中间方,DMP记录用户去了哪个网站,用了什么APP。当人使用APP时,数据会告诉DSP,这个人出现在某个地方,就能够帮商户做智能投放,由于背后有大数据支撑,放在很短的时间内就能完成。这种模式对营销来说,绝对是一种颠覆。
另外,还有一个非常重要的变化是对话。美国有两大公司,几乎同时宣布了一项战略性科技——对话的人工智能。例如,你的房间有一个音响,这个音响同时是一个传感器。当你说“我要买一瓶酱油”,音响会和你说:“老板,你是不是要买你之前买过的酱油?”你说:“不是,我要买新的。”它就会告诉你,新的酱油以及同样差不多有几种,建议你选择哪种。这将引发大颠覆。
隐私+归属权:从混沌走向清晰
说到大数据,不得不提的是大数据与隐私这个问题。这次在美国,见到一个在隐私问题上给美国总统提意见的专家。他说,关于个人隐私会有一个颠覆性的变化,这一变化在欧洲已经开始了,现在轮到美国。
过去,当用户使用一个应用时,都会和应用方签订一个协议,表明用户同意把自己的数据交给应用方以改善用户体验。但是大部分人都不知道自己同意的是什么,仅仅是点击了“同意”。美国的法律对此准备进行修改,这可能会改变大数据产业。
在这个变化中有个问题,数据分可识别数据、不可识别数据。互联网上的数据,有的可以识别是你,有的不可以识别是你。当不能完全知道他是谁的时候,就没有办法和他说你是否同意该怎么办?现在,美国正在认真讨论类似的问题。
另一个问题是数据的拥有权是谁?早期大家是按照实物的思路,来定义数据拥有权的法律,后来发现这条路撞墙了。数据的可爱之处就是看见就看见了,不在于是你拿着还是我拿着,法律界已经开始关注这个问题。
关于隐私问题,大部分用户更多是希望平衡协调好,不能拿到数据反而对方却一点好处都没有,或者数据使用后对方却一点都不知道。所以,问题是谁有权控制?例如脸书,每一次使用用户数据都会告诉用户,这个数据会在某个点使用,这就涉及数据使用透明和是否可控的权利问题。这个行业中很多人不想讨论这个问题,但并不是不知道。但这却是我们做大数据的人必须要慢慢解决的,否则这将是一个定时炸弹。
当然,有大量的数据与隐私不相关。例如,用1000个人或者5000个人的数据计算所得结果,当做大数据营销时有没有把其捆绑在5000个人当中营销?美国有些方案很可爱,认定个人数据的隐私问题不是放在单独的案例中,而是放在行业中。我问专家,为什么要放在行业中?他说,个人隐私和行业有关,例如卖药,个人隐私的监管就会非常严格,而游戏类的个人数据会相对简单。在欧洲则表现为一套法律,不分行业。欧洲人认为,隐私是一个人的底线,而美国认为价值和隐私之间可平衡,这些都是未来人们都会议论的课题。
做好缝合,不断迭代
大数据本身是异构异类的数据,就像裁缝把不同的材料缝成一件衣服一样,需要很多技术把数据连接起来,让这些数据可以使用。不同材料缝合在一起,中间会有一些缝合处。美国任何一个做大数据的人,都会告诉别人数据关联很难,美国可以把数据关联起来的公司有几家。在美国,大数据行业的产业链是可以分工的,大家协同把东西做出来,这和中国的情况是有区别的。
要把大数据整合起来,数据源好不好非常重要。另外。有没有不同的环境可以进行数据测试也很重要。数据、算法、产品服务都是迭代的。数据有不同的版本、算法有不同的版本,我们要找到最优、同一个语境下最好的算法才可以达到最好的服务。
让大数据成洞察力和行动力
对于企业来说,需要将大数据变成企业的洞察力、行动力。10年前,商业决策都是靠经验驱动,用数据证明自己的判断是对的。而数据驱动则要拥有足够的数据,通过数据发现一些以前没有看到的东西。
例如,一些人在购物网站搜索过的关键词,两个月后会成为比较流行的关键词。深入分析时数据会显示出购物中的达人,购物达人看的东西和普通人不一样,他们有自己的方法寻找想要的商品。如果能跟踪这些达人,就可以找到用一般推荐引擎无法找到的东西。
一个学习的完整体系,简单来讲,首先有目标定义,之后进行决策、行动,拿到行动结果之后学习。人类学习的一般方法都是根据这个链路进行,这叫“自学习”,即用自己的经验慢慢积累,进行一个自我循环。当我们开始做大数据时会发现,别人的数据会成为自己的经验,也可以将别人的数据代入自己的决策,进而学习到别人的经验,这叫“集体智慧”。在大数据中,其实是可以找到别人的集体智慧。
大数据创新基本涉及三个层面,分别是数据创新、算法创新、服务创新。举个例子,有一个网站虽然有几亿用户群,但只有几百万人买彩票。如何找到更多用户到这个网站买彩票呢?按以往的方法,先描述买彩票的人,通常经验认为男的比较喜欢买彩票,年纪应该是25-35岁;而用大数据的方法则是猜想用户下一步想做什么,可以看看四周之内用户有没有看过彩票的内容,如果有,那他就是一个希望买彩票的人,只是没有在网站里买。用这个思路,可以发现买彩票的女性比男性多,而且往往在办公室买得多。这样一来,数据就指明了哪些人在哪些地点是最好做营销的。
对于数据零散且不清楚的问题,大数据同样可以解决。例如面对不知道客户是怎样的人的情况,只知道这些人重复购买,但还是想用大众标签去描述这些人时,可以先猜1000人对他们进行营销,发现有些人被猜对,有些人被猜错,对猜对的那部分人继续深入,慢慢就会越做越准确。这就是我通常讲的“用数据养数据”。
一个公司有没有大数据能力,一般看有没有预测能力和行动能力。但是布点/收集、存储/刷新、识辨/关联,也很重要。前者是如何让数据更容易使用,后者是如何让数据更有效关联在一起。这个闭环如果可以做好,就可以做一个非常好的数据产品。
好的数据,六个衡量标准缺一不可;缺少其中任何一个,数据质量就会下降。有的数据很稀缺,很独家,那就是数据价值。数据质量主要看是否准确,但还要看全面与否。举例来说,如果只拿到安卓的数据,没有拿到苹果数据,那就是不全面。将一段段很零散的数据集合起来,没有连续性的数据也是不可行的,需要寻找很可靠的合作方提供算法、数据、服务。
一家公司是否能用好自己的数据,首先要看公司高管、员工有没有意愿,接着才会考量工具。有意愿、有能力、有工具的前提下,才可以谈到整个公司一定要对数据有自己的认知方向,组织保障以及执行到位。众所周知,信息数据化的情况还没有结束,包括应用无线化,对话性的产品将是颠覆世界的产品。互动的产品在将来或许会越来越多,这也是我们在创新产品时很大的机遇。
■红杉资本中国基金会专家合伙人、阿里数据委员会原会长 车品觉