被大数据改变的UGC

  • 来源:IT经理世界
  • 关键字:大数据,UGC
  • 发布时间:2018-02-06 11:12

  算法并真正的壁垒,而是根据用户特征和产品定位来设计结构,然后把算法应用在结构中去提升效率。

  你要去哪里,或许你的手机比你还清楚。只要打开App,看着推送的信息,点击你感兴趣的,慢慢你就会有主意——当10个推送中5个开始和海岛有关时。那么,是去巴厘岛还是普吉岛?连名字都分不清的你有些苦恼,却发现下面及时推送了这两个地方的旅行产品和攻略。从那一闪而过的念头开始,你就被大数据技术感知了,从而平稳的开始了你的旅行,从路线景点到吃喝玩乐的建议,甚至你完全没有想到的都被呈现在你眼前,这是大数据应用的一个开始。

  连接用户与内容

  蚂蜂窝曾经是知名的旅游攻略UGC社区,而现在,全球旅行服务平台会是更全面的定位,这个改变与蚂蜂窝在数据应用上的进化是分不开的。

  作为元老级人物,陈惠印象中最早的数据应用,是伴随着移动端蚂蜂窝App而出现的。“那时我们有了手机App后,特别想知道用户都在看什么样的攻略、在找什么样的内容,所以我们的大数据最早的起源,其实就从手机APP里数据的采集开始的。”数据收集的出发点是为了了解用户的需求,从而满足需求,但在移动端大数据真正的应用,却要等到2013年。

  最早,蚂蜂窝的攻略是分散在小组之中的,比如北京同城的小组中,会有去西安、普吉岛和厦门的帖子,而“查找攻略”也是一件不容易的事情,想去厦门,可能意味着要在十多个小组中翻看几十篇游记来搜索信息。旅游在绝大多数情况下,是人为了新鲜的体验而去一个陌生的地方,因此信息的不透明几乎是绝对的,如何让用户找到自己真实需要的信息,就变成了核心的问题。

  UGC出身的蚂蜂窝并不缺内容,但海量的内容多为照片和游记,是非结构化的,怎么样才能让它们和用户高效率地连接在一起呢?在大数据部门的技术总监韩鑫看来,可以简单的分成三个部分:一个是内容,一个是用户,最后是推荐系统。而蚂蜂窝做的事情,就是将前两者的数据结构化,最后通过算法匹配到一起。

  2013年,蚂蜂窝开始搭建了目的地分类系统,让所有的内容可以在一个系统中呈现,这是内容结构化的基础。“举一个例子,比如对一家酒店,有许多用户评论和游记,我们会从中提取有用的信息。”韩鑫介绍,游客往往会关注酒店的价格、环境、特色、餐饮和交通等信息,这些信息意味着不同的维度,将影响用户的旅行决策。比如对一家酒店一共有1000篇游记,其中有500篇游记涉及了交通的维度,在游记中可能是“距离机场不远”“在机场快线上”“去机场很方便”等不同的说法,而蚂蜂窝通过构建自然语言的平台,将评论和游记中原本发散的内容集中在一起。“首先是基于词库中的关键词去搜索,然后是语义分析和数据挖掘技术。” 游记的内容被分解为句子,然后句子分为句式,句式再分为词组,在系统中跑模型,最终被归纳成用户易于理解的结果。韩鑫用知识图谱的形式展示了日本的目的地信息,在众多维内容中有温泉,点击温泉后又会出现泉质等不同的内容,点击泉质后又会有绿矾泉、单纯泉、芒硝泉等,“这都是根据内容解析出来的,完全靠机器的话可能也不足够准确,但这会是很好的基础,在这个基础上,再靠人工去校验。”韩鑫说,通过这种方式UGC的内容得以结构化,从而形成蚂蜂窝印象等产品。

  在用户画像上,基于使用场景,蚂蜂窝会将用户分为四个阶段。第一个阶段是旅行空窗期,这个阶段的用户没有明显的旅行倾向,浏览的内容也相对分散;第二个阶段是旅行发酵期,用户已经有了一些模糊的出行需求,比如是国内游还是出国、会和谁一起旅行、有多少预算等,但假如是海岛游,那是去巴厘岛、普吉岛还是马尔代夫?这个阶段的用户,浏览攻略的内容开始集中,也会出现目的地搜索的行为。第三个阶段是旅行准备期,用户已经有了明确的目的地、旅行方式等;第四个阶段是正在旅行。

  在这四个阶段,通过对用户浏览、点击和搜索数据的收集分析,时间、地理位置信息的实时获取,以及对用户行为的引导,比如在用户界面,会有国内、国外、带娃旅行、海岛游、情侣出行等不同的分类,蚂蜂窝会勾勒出精准的用户画像,并在这个过程中给予不同场景下的推荐信息。“我知道了你在什么地方,有什么样的旅行需求,也对内容有了解,包括多少个目的地、场景和标签。”马蜂窝旅行网副总裁陈惠说,推荐系统的搭建,让用户和内容间得以匹配,但在今天的行业中,推荐的算法并不是壁垒。真正重要的是,根据自身的用户特征和产品定位,设计一个结构,然后把算法应用在结构中去提升效率。“互联网时代,每一次的流量,背后都是用户的一次需求,所以了解好用户的每一次访问,才能服务好用户,而这个核心就是大数据的能力。”而蚂蜂窝对旅行阶段和场景的判定,再配合不同的标签和维度,可以让用户的需求细分,从而精准的匹配到同样细分的内容资源上。

  小团队大赋能

  在2017年的12月12日,蚂蜂窝宣布获得1.33亿美元的D轮融资,快速扩张中的蚂蜂窝团队目前有700名员工。谈到具体的大数据团队,作为负责人的韩鑫却笑着说,只有十几个人,“但能够利用和使用大数据的人,(在公司员工中)超过了70%”。

  在线旅游拥有着丰富的场景和业务,尤其是蚂蜂窝主打的“自由行”,因追求个性化而更显得复杂,这给技术上带来的挑战是,如果靠传统的方式去做大数据,那需要的工程师就太多了。“所以非常重要的一点是去赋能,用大数据赋能别人。”韩鑫说。

  以基础的数据采集工作为例,传统的做法是,由公司的数据团队去对接不同部门的各个系统做数据归集,这涉及了大量的业务对接和标准化的问题,人力和时间成本都很高。而蚂蜂窝的数据团队在App的基础上,搭建了统一标准化的数据采集系统,“哪怕是刚毕业的一个应届生,只要做一个简单的培训,就可以十分钟时间内自己去上报一条可能是千万量级的数据。”

  韩鑫对大数据能力的一个看法是,大多数公司不是做不到,而是效率太低。进行一项统计分析,比如哪些景点旅游人数最多,第一、第二、第三分别是哪里,用户都在看什么美食,在蚂蜂窝的系统上,无需工程师去专门对接需求,只需要按照可视化的规则配置,就能够以分钟级的速度实现。“对业务使用者来讲,他只需要理清楚自己到底要分析什么,统计什么,运算规则可能五分钟就建立,之后所有的数据运维由数据团队承接,关注这个运算规则能否很好地去执行,而统计结果会直接对接到产品内容上。”韩鑫告诉记者,这样的规则在蚂蜂窝有5万多个,仅2017年一年就形成2万多个,而传统方式需要最少几小时甚至一个周的时间。

  “我们非常强调分享,也强调人人都是分析师,每个人都可以利用工具平台去输出自己的数据,分享给别人。”而具体的实现方式,就是将整个数据流程从最底端采集到最前端呈现全部产品化,这样,一个人只需要一个小时就能配置完成。而效率的提升也促进了对敏捷型业务的提升,韩鑫举了一个例子,假如一个活动只有三天,很多公司不会愿意为此而做数据研发,而如果只需要花费一个小时就可以完成,那就值得做了。“我们的一个基本的思路就是赋能。”他说:“通过产品化,让每一个人都有能力去处理数据、加工数据,能够根据自己的实际需求,来决定到底哪些东西是需要被处理的,尽可能降低大数据技术的门槛,然后让更多人能利用大数据技术,去给他自己的产品和业务带来帮助。”

  文/李昊原

……
关注读览天下微信, 100万篇深度好文, 等你来看……
阅读完整内容请先登录:
帐户:
密码: