数据湖技术在烟草行业中的应用探讨
- 来源:互联网周刊 smarty:if $article.tag?>
- 关键字:数据湖,数据仓库,烟草行业 smarty:/if?>
- 发布时间:2022-11-16 15:24
摘要:与过去传统的数据存储库相比,数据湖在数据收集、数据价值的发挥、数据孤岛的消除等方面都有着显著的优势,加之有着良好的扩展性与敏捷性,因此被越来越多的行业所重视。烟草行业作为高税负行业,如何将数据湖技术应用其中,对于数据集成能力以及数据治理能力的提升起着至关重要的作用,不仅能为营销环节做出更为精准的预测分析,而且对于财务管理也能起到十分积极的影响。本文基于此背景,首先对数据湖相关概念进行了简单介绍;其次对数据湖方案的价值以及可行性进行了分析;最后详细阐述了数据湖在烟草行业中的应用与研究,以供相关工作者参鉴。
引言
数据湖作为一种新型且集中的存储库,可以存放任意规模的各种结构化与非结构化数据。同时,数据湖还具备改造和解析历史数据的功能,可以把各种来源的原始数据添加到一个综合数据库当中,可供用户进行统计分析。随着大数据时代来临,很多数据都存在潜在价值,企业如何将这些潜在价值的效益进一步放大,对于其生产经营以及整个行业的发展都将产生重大的影响[1]。在数据湖技术应用过程中,无须提前对数据结构进行定义,而是以保留原始数据的形式进行储存,用户可以基于自己的需求对数据进行展现与获取。同时,数据湖还可以对跨异构数据源进行关联数据分析,这样在节省成本的过程中还可以极大地提高用户的使用感受,因此具有广阔的应用前景。为了推进企业数字化转型,开展储备新技术研究与试点应用,本单位负责研究目标为:“批流一体”的数据湖增量处理架构研究
1. 互联网平台“数据湖架构”相关概述
在早期互联网发展过程中,各个行业的数据类型还比较单一,数据量规模相对较小,因此数据架构也相对比较简单。而随着互联网的进一步发展,数据量也逐渐呈现爆发式的增长,使得过去传统的数据架构难以满足各行业庞大数据量的服务需求。也正是在这种背景下,数据湖的优势得以凸显,首先,凭借其强大的共享功能,能够有效聚集互联网平台间的数据,从而形成聚集优势;其次,一旦所聚集的商业数据价值得到了开发,那么互联网平台便可以借助这一优势实现对市场的控制,进而就会对各行业原本的竞争秩序与市场机制形成一定的挑战。
2. 数据湖方案的价值及可行性分析
数据湖技术比较强调对原生数据的统一保存,可以对各种结构、各个类别的数据进行统一的存放,进而使得各种数据类型都可以保有统一的存储方式,从而方便用户进行使用,解决过去一直所存在的数据集成问题[2]。从本质上看,数据湖属于一种新型的数据管理的思路,即通过低成本,对原始数据进行捕捉、提炼与探索,探究其长期存储的方法与技术。也正是如此,数据湖可以实现对不同种类数据的有效存储,在效率与质量上有了显著的提升,实现更为快速、更为廉价的数据处理,将建模应用问题留给最终开发者。总的来说,应用数据湖方案,主要有以下几点优势。
2.1 规模大、成本低
与数据仓库相比,数据湖能够将海量数据进行统一存储,借助开源技术与低成本硬件资源,所耗费的数据维护成本也更低[3]。
2.2 数据“原汁原味”
在应用数据湖方案的过程中,能够以最原始的形式将数据进行保存,在不同生命周期,也仅仅是对数据以及上下文语义进行更改,这样就十分方便企业的内部审计工作,在合规性上得到了显著提升。如果期间数据出现了不同程度的转换、更新及聚合,那么当用户对数据进行使用时,很难将数据再拼凑在一起,也很难精准地获取数据的出处。
2.3 数据方便易用
由于数据湖能够实现对不同类型数据的原样加载与保存,因此无论是对于日后的转换、开发还是存储,其所消耗的成本都相对较小,并且数据产生于使用之间的延迟时间也得到了有效缩短。不管是针对客户、提供商还是数据运营商,在不要求数据所有者提供过多支持的情形下都能够自动地对数据进行整合管理,因此减少了过往数据共享时所面临的内部政治障碍与技术上的阻碍。
2.4 应用按需建模
应用数据湖方案时,所能给出的数据往往比较灵活,且都是直接面向任务的结构化应用,这样就能给用户的使用带来极大的灵活度,不过针对同一种数据,如果使用者的要求有所不同,就很有可能形成完全不同的理解。
总的来说,数据湖方案的应用提供了一个全新的数据管理思路,能够实现原生数据存储、事后绑定建模、统一数据管理,这样就能摆脱过去传统的数据应用的建模体系。同时,还能够实现对原始数据的低成本、大规模的存储,从而使原始数据得到实时且有效的保存,这样便可以有效克服传统烟草企业数据管理架构所面临的质量不高、需事先进行建模、成本高昂等问题。应用数据湖技术时,按照成熟度分类一般可包括以下阶段:
(1)必须自己构建应用程序,并且通过部分软件把信息提交到资料仓库,然后才能通过资料仓库实现管理和使用[4]。
(2)数据湖开始和数据仓储之间形成交互并存的状态,由应用程式先向数据湖提交副本信息,然后再进行分析型应用。在这一阶段,无论数据仓库还是应用,都能够在数据湖中对信息加以提炼。
(3)需要以数据湖为中心,对新系统进行重新构建,然后实现对彼此数据的相互交换,使数据湖处于整个框架中的核心地位。同时,数据仓库还需要根据数据湖提供对应的应用需求,因此数据治理在这一阶段显得十分重要。
2.5 构建弹性分布式平台
在对新应用进行构建的过程中,需要将数据湖作为基准,将其建设为弹性的分布式平台。在这一过程中,数据治理以及安全性都需要进一步加强,这样才能有效支撑烟草企业的数据运营以及分析。
3. 数据湖在烟草行业中的应用与研究
随着全球化趋势的逐渐加深,我国烟草行业所面临的市场竞争压力越来越大,而想要在这种背景下获得生存,就需要与时俱进,提高对大数据技术应用的重视,紧跟当前互联网发展步伐。在进行企业运营与产品销售的过程中,烟草企业往往会产生大量的数据,尤其是在行业发展初期,很多数据很难被其他应用程序所使用,进而造成了数据孤岛的情况发生。当前部分企业开始着手于数据集市进行存储,这样管理中产生的信息都存放到了一种集中式的数据仓库中,可以按照公司各部门的需求对信息进行导出,在一定程度上缓解数据孤岛问题。然而从实际情况来看,尽管数据集市技术可以解决部分问题,但绝大部分的问题都依然存在。因此对于烟草企业来说,如果想要获得更为高效的数据能力,就需要强化对数据湖技术的研究,以此来有效解决当前烟草企业在数据管理等方面所存在的诉求[5]。从数据湖技术在烟草行业的应用优势来看,主要可以分为以下几个要点:首先,数据湖技术能够有效实现数据治理,并且还可以借助机器学习与人工智能对其产品生产以及销售进行分析与预测;其次,数据湖还能实现信息追踪的一致性,能够基于对过去历史的分析,重新产生新的数据维度,进而形成相对集中的烟草企业生产经营数据中心,为企业发展提供针对性的数据优化服务,为各项决策提供更为灵活、更为准确的数据参考,进而促进企业市场竞争力的不断提高。
3.1 研究意义
为了推进烟草企业数字化转型,开展储备新技术研究与试点应用,中国烟草总公司云南省公司负责的研究的目标为:“批流一体”的数据湖增量处理架构研究。基于开源软件,研究数据入湖技术,探索形成自主可控的批流一体数据处理技术。提高数据处理自动化水平,降低运维成本,提高对业务数据实时性需求的响应程度。
3.2 研究目标
(1)研究构建统一的、支持长期演进的大数据处理架构。研究加快数据从入湖到处理结束的时间,依靠批流一体技术,把目前主流批处理每日一次的24~32小时数据延迟做到30分钟、2小时以内(基于不同技术)。
(2) 研究Hadoop访问内存加速技术,对1000万左右大小的数据集的数据查询时间缩短到10秒钟以内,方便数据集市不用其他技术构建。
(3)提高元数据在入湖和分析过程中的作用,为未来元数据系统建设打好基础。
3.3 研究内容
探索批流一体的数据湖增量处理架构技术。探索简化数据处理架构、提升数据入湖的自动化水平,在中长期降低数据集成和数据维护成本,推动研发向更深层次的数据分析、数据质量管理等领域倾斜。
(1)从技术上主要研究以下方面:开展统一大数据处理过程研究,研究“批流一体”的大数据处理过程;Hadoop增量数据处理研究,研究Hadoop更新插入、删除和增量处理;内存访问加速技术研究,研究Hadoop访问内存加速技术;元数据使用研究,研究元数据在大数据处理流程的技术使用手段;自动化水平提升研究,研究提高数据入湖处理的自动化水平。
(2)从业务场景的应用上主要研究以下方面:构建批流一体的数据处理过程,研究基于Hadoop架构的更新插入、删除和增量处理,访问内存加速技术,探索元数据使用场景,提升数据自动化入湖处理,简化数据处理工作、提高数据及时性。
3.4 拟解决的关键问题
3.4.1 “批流一体”问题
过去数据仓库由于在更新插入、删除上存在支持不足的问题,为了做实时或者近实时的数据处理分析多采用批处理和流处理分开的数据架构(Lambda架构)。离线数据通过批处理加载到大容量数据仓库中,而实时数据通过流处理技术加载到在线联机处理数据库或者其他对实时更新插入、删除支持较好的数据库中。这种做法需要同时维护离线数据和在线数据,在数据量、数据对象数量越来越多的时候会造成很高的维护成本。同时前端应用的设计越来越复杂。
“批流一体”的数据湖增量处理架构研究项目中使用统一的数据处理架构,所有的数据均以流的方式输入到数据湖。对于实时性要求高的数据可以缩短任务执行的时间间隔,对于实时性要求较低的数据可以调高任务的执行时间间隔。这样可以实现对批处理和流处理的一体化,只需要维护一套数据处理程序,降低了中长期的运维工作量并提高效率。
3.4.2 “湖和集市一体”问题
当前的数据湖通常使用Hadoop技术构建,过去由于Hadoop在快速数据查询、聚合等操作上不具备优势,通常需要将数据湖中分析处理之后的数据输出到数据集市中供最终的用户使用。数据集市通常使用联机交易处理型数据库或者联机分析型数据仓库。使用不同的数据技术不仅会增加系统的运维复杂性和建设成本,并且也会增加开发的复杂度。
近年来通常使用内存加速技术来加快Hadoop的访问速度,Apache Presto是目前使用最广泛的一个工具。Presto可以用来查询多个来源的数据,包括HDFS、MySQL、Cassandra、Hive等,它支持标准的ANSI SQL,使得用户可以从GB级到PB级数据中发掘价值。使用Presto可以减少对独立技术数据集市的需求,在Hadoop中即可以实现数据湖、数据集市的一体化管理。
3.4.3 自动化运维问题
在批流一体技术构架及落地中,需要做大量的部署工作,前期研究表明即使要完成1张表的数据集成,需要的部署时间也比较长。使用手工部署的方式耗时耗力,而且也不利于后期项目的推广。在本次项目中将探索借助自动化运维平台,实现重点耗时耗力部署过程的自动化,节约人工成本,有助于后期的推广。
3.5 项目实验案例展示
3.5.1 数据入湖自动化
对于每一张表,重复以下步骤:(1)创建Hadoop Hudi表建表代码并创建表;(2)创建全量数据摄取配置文件,启动全量数据摄取;(3)编写CDC监听配置文件,监听该表数据变动;(4)编写Kafka配置文件,接收CDC的配置数据;(5)编写变动数据处理程序配置文件,将变动数据写入到之前创建的表中;(6)手工更新元数据管理系统中的元数据信息。
3.5.2 数据分析模型化
模型示例:(1)目的:将Hudi数据表从Hadoop输出到MOLAP Kylin中,支持多维数据分析,大幅提升聚合结果查询效率。(2)内容:根据配置,连接到Kylin实例;创建Kylin表(全量)更新Kylin表(增量)使用API构建多维立方体;过程时间统计。(3)结果:一条命令完成:ExportKylin(table, output, params)。
结语
综上所述,数据湖能够对企业各生产运营环节中产生的数据进行统一的收集与管理,并且还能实现统一的数据存储,这样就能为各级开发人员提供个性化的服务,满足不同的服务需求,进而使企业数据价值得以充分发挥。因此通过对数据湖技术的应用,能够使大数据平台与企业各业务实现更加深入的融合与集成,尤其是对于经营过程中数据量巨大的烟草行业来说,数据湖的价值能够得到更为充分的显现。
参考文献:
[1]宋潘文.互联网平台“数据湖”架构的竞争风险与法律规制[J].中国价格监管与反垄断,2022,(7):25-28.
[2]梁怿,李佳鹏,王洪钧,等.一种基于绝对单向技术的数据湖设计方法[J].西安石油大学学报(自然科学版),2022,37(2):138-142.
[3]李硕,卢华明.基于数据湖的环境大数据存储模型[J].北京信息科技大学学报(自然科学版),2021,36(6):81-86.
[4]侯宁.油田区域数据湖的数据集成技术研究[D].东北石油大学,2021.
[5]刘志勇,何忠江,刘敬龙,等.统一数据湖技术研究和建设方案[J].电信科学, 2021,37(1):121-128.
作者简介:鄢达铸,研究生,工程师、项目管理,研究方向:数据分析;通信作者:刘凯,研究生,工程师,研究方向:数据分析。