大数据技术及其在广电网络的应用思路初探

  • 来源:传播与制作
  • 关键字:大数据,并行处理,分布式,数据库
  • 发布时间:2014-12-19 13:33

  【摘要】主要从大数据特征、大数据研究动力、原则、目标、内容和途径、大数据处理关键技术环节、广电网络大数据技术应用思路等方面,探讨了大数据技术及其在广电网络的应用思路。

  【关键词】大数据 并行处理 分布式 数据库 数据挖掘 内容精准投送

  一.引言

  大数据作为一个持续演进的概念,是指无法通过现有常规的数据库管理技术和软件工具处理的、需要采用新的处理模式才能在合理时间内对其内容进行采集、存储、管理、处理、整理、分析、挖掘,以帮助企业经营决策的多样化、超大规模的数据集合。大数据技术包含大数据科学、大数据工程、大数据技术应用等研究领域,大数据科学是研究在大数据网络发展和运营过程中发现和验证大数据的规律及其与自然和社会活动之间的关系,大数据工程是研究大数据的规划建设和运营管理的系统工程,大数据技术应用是研究从各种类型的超大规模数据集合中快速获取、存储、管理、分析、挖掘、提取与运用有用价值信息,本文试图对大数据技术及其在广电网络的应用思路进行一些探讨。

  二.大数据特征

  1.大容量

  大数据并不等同于海量数据,海量数据只强调数据量大,大数据不仅体现数据的量大,比如:大数据已从TB级跃升到PB级甚至EB级,大数据还体现数据的复杂形式、数据的快速时间特性以及对数据的专业化分析与处理、最终获得有用价值信息。

  2.多样性

  大数据类型不仅包括传统的关系型数据类型,也包括以网页、视频、音频、E-mail、文档等形式存在的未经加工的、结构化/半结构化/非结构化的数据类型。

  3.时效性

  大数据流动的速度快到难以用传统的技术系统去处理,大数据处理与挖掘要求速度快、时效性高,这是其区分于传统数据处理与挖掘显著的特征。

  4.价值密度低

  大数据作为一种自然资源,本身隐含着更准确的事实和有用价值,但是在数据量呈现指数增长的同时,隐含其中的有用价值信息却没有相应比例地增长,反而使获取有用价值信息的难度明显加大了。

  5.准确性

  大数据可通过分析挖掘海量数据背后的用户行为习惯和喜好等有用价值信息,以便有针对性地调整、优化、投送更符合用户习惯和兴趣的产品和服务。

  6.获取和处理方式

  大数据本身来源于各类数据源的原始数据,包括静态/非实时数据、动态/实时数据,同时还有再生数据,经过整理和组织,再经过提炼和追溯,最后用于预测、判定与决策。

  7.关联性

  大数据的关联性表现为:无关联/简单关联数据(键值记录型数据)、复杂关联数据(图数据),数据冗余与数据缺失并在,数据本身稠密与稀疏共存。

  8.发展趋势

  (1)大数据技术在持续演进。(2)大数据涉及领域更趋多元化。(3)大数据产业逐渐成熟,产业价值链在不断延伸。

  三.大数据研究动力、原则、目标、内容和途径

  1.大数据研究动力

  (1)大数据处理和行业应用需求日益增加和迫切。(2)急剧增长的数据规模极大,超过任何传统数据库系统的处理及存储能力,需要寻求新的处理技术手段。(3)大数据复杂的数据关联性导致高复杂度的计算,且计算技术综合性、交叉性极强。(4)大多数传统算法面临失效,需要重写。

  2.大数据研究原则

  (1)应用需求为导向:以行业应用问题和需求为导向。(2)领域交叉为桥梁:各种行业、IT产业、学术界协同合作。(3)计算技术为支撑:研究解决所涉及的计算技术问题。

  3.大数据研究目标

  以有效的信息处理技术手段和计算方法,获取、处理和分析各个应用行业的大数据,挖掘和提取大数据的有用价值,为各个行业提供高附加值的智能化应用和服务,带来巨大的技术和商业机遇。

  4.大数据研究层面和研究内容

  5.大数据研究途径

  (1)寻找新算法降低计算复杂度。(2)降低大数据尺度,寻找与数据尺度无关的近似算法。(3)分而治之,并行化处理大数据。

  四.大数据处理关键技术环节

  大数据处理技术包括大规模并行处理(MPP)数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统等,主要涉及以下关键技术环节。

  1.大数据采集

  大数据采集是从本地数据库、互联网、物联网等数据源导入数据,包括数据的提取、转换和加载,利用多个数据库来接收来自客户端(Web、App、传感器)的数据,用户可以通过这些数据库进行简单的查询和处理。大数据采集可能涉及成千上万用户同时并发访问和操作,需要在采集端部署大量数据库才能支撑,还要在这些数据库之间做好负载均衡和分片。

  2.大数据预处理

  大数据预处理技术包括大数据的传输和导入、大数据的清洗过滤和质量管理、大数据的压缩、分布式并行计算技术,大数据预处理是将大数据导入到一个集中的大型分布式数据库,或者分布式存储集群,导入与预处理的数据和实时计算量非常大。

  3.大数据存储管理和索引查询

  采用分布式存储架构的大数据存储管理和索引查询技术有:(1)记录型大数据索引和查询技术:静态记录型大数据索引技术、流式/增量式记录型大数据索引技术、大数据表高效关系型操作、大数据并行化查询技术。(2)SQL/NoSQL查询语言接口与技术:SQL/NoSQL查询语言接口、并行化查询执行机制。(3)图数据表示和查询技术:静态图数据表示、存储和查询、流式/增量式图数据表示、存储和查询、图数据并行化查询技术。(4)混合式数据表示和存储管理技术:NoSQL数据库技术、结构化/半结构化/非结构化数据混合存储管理技术、混合式数据的数据关联和查询技术。

  4.大数据统计与分析

  大数据统计与分析技术包括大规模图像检索并行化算法、大规模图像分类、目标检测、视频异常行为检测等技术,涉及复杂的结构化、非结构化数据,需要人工智能、神经网络等算法的深度研究,大数据统计与分析需要利用分布式数据库和分布式计算集群来对海量数据进行分析和分类汇总,涉及的数据量很大,对系统I/O资源等占用极大。

  5.大数据挖掘

  大数据处理学习和数据挖掘算法有:(1)分类算法:SVM支持向量机、神经网络、朴素贝叶斯、决策树。(2)聚类:Kmeans聚类算法等。(3)关联规则挖掘。(4)参数估计。(5)高维度数据降维。(6)集成学习。(7)图数据算法:图聚类、图分类、图模式匹配。(8)基于本体的语义分析与挖掘:本体语义数据库、大规模语义数据并行化查询分析、大规模语义融合与深度挖掘、大规模文本语义分析与挖掘、大规模媒体语义分析与挖掘。

  6.大数据展现

  大数据展现是基于大规模Web信息抽取与集成技术,进行大数据可视化计算与分析,实现Web信息搜索和排名网页推荐。(1)Web信息搜索与数据挖掘:文档倒排索引、深度Web搜索(精确化、智能化、综合化信息搜索)、页面分类、页面聚类、网页摘要、重复文档检测与过滤。(2)排名与推荐系统:常规排名、多样性排名、基于内容的推荐、基于标签的推荐、协同过滤推荐。(3)网页排名图算法(PageRank):是一种由搜索引擎根据网页之间相互的超链接计算的网页排名技术,PageRank用来标识网页的等级或重要性,PR值从1到10有10级,PR值越高表示该网页越受欢迎、越重要。(4)大规模Web信息抽取与集成技术。

  五.广电网络大数据技术应用思路

  1.重视并应对大数据挑战

  广电网络企业应重视大数据分析与挖掘技术方面人才的储备与培养,企业内部从上到下都要理解大数据、重视大数据、规范地处理大数据、系统性地应用大数据。广电网络企业还应与大数据研究领域的合作伙伴紧密、良好地协作,分析业务的数据点以及数据点与数据点之间的关系,对大数据进行梳理、分析、处理和深度挖掘,使其转换为富有价值的信息为企业所用。

  2.了解广电网络大数据应用难点

  随着业务的发展和网络规模的扩大,广电网络每天产生、传输和存储的大数据呈现TB级或PB级甚至EB级海量和非结构化、零散、无规律等特点,广电网络大数据存储和处理存在不少难点。广电网络大数据应用涉及全业务运营,业务流程梳理难度很大,广电网络目前对用户收视数据未进行实时采集,数据采集和分析基本依靠采样模式,缺乏用户行为数据。因此,广电网络需要尽快建立大数据处理平台和大数据分析模型,对海量非结构化数据进行诸如用户、内容、热点发现等多维度分析和挖掘。

  3.广电网络大数据汇聚融合

  广电网络大数据处理平台需要汇聚融合视频数据、互联网数据、点击流数据、搜索数据等多元大数据,广电网络大数据包括用户、收视时长、收视次数等视频维度和搜索引擎监测、微博传播监测等网络维度,需采集机顶盒、运营支撑系统(BOSS)、运维系统、地理信息系统(GIS)、媒资系统、互动电视系统、互联网等异构数据源的海量数据,进行数据预处理、数据清洗、数据集成、数据变换、数据规约、数据仓库、数据分析与数据挖掘等一系列操作,需建立各种业务分析模板,实现广电网络大数据的商业化智能化分析,将杂乱无章的收视数据、用户行为数据、运维数据、媒资数据等汇聚融合形成彼此关联、支持运营决策的大数据库数据。

  4.基于大数据的运维决策

  基于大数据处理平台可对广电网络大数据进行深度挖掘,构建智能化专家知识库系统,简化故障定位和排除过程,精细化调配网络资源,实时获取业务内容和服务质量的监测数据并上传至大数据处理平台,针对不同的业务需求,采用不同的数据清洗、过滤和分析挖掘工具,对数据源各类数据进行不同策略方式的提取、整合、拆分,实现高效、灵活和准确的数据分析,将各项运行参数进行服务质量匹配,将相关结果与客服报修、运维监控实现共享,指导运维决策。

  5.基于大数据的精准化内容投送

  基于大数据处理平台可对广电网络用户行为的海量数据进行多维度的分析挖掘,形成用户信息、用户行为模式、消费习惯、收视喜好、消费层次的精准定位数据,对用户进行细分,优化营销决策,创新商业模式,提高服务层次、运营能力和服务质量,优化内容推送策略,指导、优化内容编排和内容推荐,对用户感兴趣的视音频节目、电子商务信息、业务应用、产品广告等内容实现精准投送,满足日益个性化的用户收视体验需求。

  6.基于大数据的动态广告插播

  基于大数据技术,可以准确地制定广电网络企业经营管理与市场竞争策略,改进广告产品设计,进行精细化市场营销,针对受众人群精准推销产品、动态插播广告。动态插播广告技术是通过大数据模式识别技术,找出回看电视节目中的广告内容并实时自动将其精准替换成运营商的广告,可以迅速更换点播、回放节目中的广告,充分利用节目中的广告时间,增强企业盈利能力。

  7.基于大数据的多屏战略

  多屏战略需要解决用什么样的内容去适配什么样的终端、什么时间与场景推送什么样的内容去什么样的终端等问题,基于大数据技术支撑的多屏战略能够更好、更精准地制定和执行,有利于多屏战略目标的实现。受众有偏好,就会有行为痕迹,就会有需求信息,就会以数据形式表现出来,通过对受众喜好和行为痕迹大数据的分析、挖掘,可以及时、准确地进行业务推荐,增强用户体验,增加用户粘度。

  徐俭 翁德华 徐有聪

关注读览天下微信, 100万篇深度好文, 等你来看……