2009年出现的甲型H1N1流感给全世界人民造成的恐慌还没有完全散去,2013年春天新一轮禽流感又卷土重来,又一次造成全面恐慌,一时间人们谈“禽”色变,大规模扑杀家禽的消息不断传来。更糟糕的是,目前还没有研发出对抗H7N9病毒的疫苗。公共卫生专家能做的只是减慢它传播的速度。但要做到这一点,人们必须首先知道这种流感出现在哪里,哪些地方会重点分布。
方兴未艾的大数据技术能为禽流感的防治助一臂之力吗?答案是肯定的。我们采用语义空间主题投影方式,跟踪了数百个相互关联的信息点,并进行了二度空间的深度挖掘,从而发现了更多不为认知的事实。
方法论:关键词和权重
我们的研究用了一个跟踪内容主题的方法,传统方式是利用人们主观认定的“禽流感,发热,口罩,板蓝根”等关键词搜索技术,但未必能涵盖整个禽流感的主题范畴。Google曾经成功地利用数千个变量来预测流感,这是如何做到的?我们来试试。
大数据的方法是交给机器1000篇人工选取出来的文章作为样本,让机器学习出来。每一个字都可以做奇异值分解,也就是100万个词在300万的语义空间上可以投影出它的绝对坐标,再通过与另一个正交主题矩阵关联,就可以知道这个主题之下关键因素的权重,从而找出需要跟踪的词汇和统计权重。
变量的设定根据跟踪的内容可以动态调整和不断增加,这样对这个主题的描述就会更加准确和充分。这就是大数据做主题内容聚合相比于传统搜索技术做舆情分析的巨大优势。
微博言论与关注热度
通过对数百个关键因素采集全部微博相关言论,从而描述出禽流感的关注热度,可以按区域和时间两个维度显示分布情况。
从每日提取的微博关键字中可以看出网民对H7N9的讨论热度。图中横轴为讨论日期,时间段从2013年3月31日-4月7日。纵轴是微博中用户提到与H7N9相关关键词的人数,从图中可以看出全国各地讨论H7N9的热度在4月1日达到高峰。
豆粕与禽流感:二度空间的深度挖掘
借助大数据实现了主题的内容聚合和跟踪能力,来能看看它对经济的影响吗?来看看进一步研究。之前,已经按照主题把众多信息点组成了一个一度空间,如发热、口罩、医院等。随着信息的传播还会引申二度空间,例如饲料、豆粕。
将主题热度与豆粕价格做比较,就发现了明显的负相关性。再与豆粕产量关联可以预测价格趋势。对于期货公司而言,这些碎片化的微博信息具有巨大经济价值。
大数据技术远远不止这些。其中应用于自然语言处理,可以实现很多功能。如自动文本摘要、信息传播可视化、情绪化。在媒体传播上有很多可以挖掘和革新的地方。
通过这次尝试,大数据开启了一次重大的时代转型,一场生活、工作与思维的大变革。就像望远镜让我们能够感受宇宙,显微镜让我们能够观测微生物一样,大数据正在改变我们的生活以及理解世界的方式,成为新发明和新服务的源泉,而更多的改变正蓄势待发……
天云融创数据科技(北京)有限公司
……
关注读览天下微信,
100万篇深度好文,
等你来看……