随着大数据政策环境和技术手段的不断完善,大数据应用持续升温,中国企业级大数据市场进入快速发展时期。互联网、电信、金融、大型制造业等开始部署大数据平台并付诸实践,带动软件、硬件和服务市场快速发展。根据工信部电信研究院2017年3月27日发布的《中国大数据发展调查报告(2017年)》统计,Hadoop是最受欢迎的大数据平台架构,接近四成的受访企业倾向选择Hadoop作为大数据平台的技术架构。作为企业级数据资源处理和存储中心,大数据架构需要整合不同的技术平台、不同的数据结构、不同的数据接入方式等等。在复杂环境下,如何保证接入的稳定性、处理的高效性、质量的合规性等等,对大数据行动提出了新的挑战。通过建立统一的数据流程调度服务,支撑大数据批量数据文件任务调度、质量控制、任务监控,提升大数据处理能力,实现对数据质量的高效管控,是决定大数据应用是否成功的关键保障。
互联网+时代的数据应用趋势
大数据应用发展趋势是在企业应用体系中加速建设面向企业与市场的灵活和可配置的应用。互联网+的时代,数据应用方式正悄然发生变化,企业正在紧跟消费领域的变革,迅速从大型应用向小型移动应用过渡。当然,复杂的大型企业软件系统仍将继续发挥作用,支持大规模组织的运转,同时,随着各个企业将目光投向如何大幅提升IT能力的敏捷性,更为简单的数据应用将成为新方趋势。
互联网+时代,为解决数据分析方面的问题,在国际领先的快消品企业及互联网企业,数据分析都被视为核心战略竞争能力,并以创造性的方式来构建了集战略治理、价值管理、数据管理、洞察分析与行动管理、技术与工具、组织与人员管理与一体的数据分析运营体系。
大数据分析的技术特征
针对大数据的4V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值),“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
大数据转变了原有的分析技术:传统数据分析和大数据分析各有长处,将传统数据仓库与大数据仓库融合为全体系数据分析平台,才能更好地支撑企业越来越多、越来越复杂的数据分析需求。
传统数据抽取转换加载工具更适用于关系型数据,对于非结构化数据的加工处理以及与Hadoop生态圈的融合程度不高,所以策略上应该根据具体的数据加工场景,利用Hadoop生态圈中的成熟组件,如Sqoop(结构化数据导入/导出)、dfsClient(离线大文件导入)、Flume(文本文件导入)、Kafka(流式数据导入)、Hive(离线数据加工)、HBase(快速访问数据的存取)、Oozie(加工作业协调)等协同完成加工处理过程。通过调度各种工具将数据从不同数据源接入大数据平台,由Oozie按预设的策略分别向Hive、HBase和OLAP cube服务器发出SQL或指令以进行进一步的数据加工。
复杂环境下的大数据调度处理
在复杂的大数据处理环节中,往往会面临着外部数据源不可控的约束条件和各种风险,例如大数据压缩文件包,在只能采用人工方式处理的条件下,需要进行数据文件下载、打包、压缩、解压、装载、核对、入库等等,由于数据文件非常大,手工方式处理会导致效率低、质量差、稳定性不足等问题。针对此类问题的存在,需要研究和建立统一的数据处理流程调度层,利用WorkFlow平台进行统一调度与监控,优化和解决大数据文件的处理面临的问题。
大数据调度处理设计是在大数据架构的基础上,根据不同数据源的场景,利用统一的流程调度服务,满足对不同类型的数据处理的高性能要求。
调度系统自动驱动各个数据接口,实现从数据源到数据集市生成整个处理过程的工作流管理,数据交换平台负责数据抽取、文件级质量检核、调用Hive Load加载数据,基础计算平台使用Hive SQL实现贴源数据整合、公共汇总数据处理,管理分析平台使用关系型数据库的SQL实现集市数据的处理,历史归档查询平台负责数据文件和Hadoop集群数据归档。
核心处理流程主要逻辑及处理方式:
①获取业务系统结构化数据,存入临时数据区;②获取内外部非结构化数据,并进行结构化处理,存入主题或集市数据区;③按照贴源数据模型整合数据(标准化、数据更新/追加);④按照主题数据模型整合数据并生成汇总;⑤数据加工计算后,结果交付到数据集市,支持分析类应用。
以上的数据加工处理过程中,为保证数据的加载、加工处理过程的可靠,需要基于元数据管理的基础上,依据业务规则和数据质量标准的约束,对数据全过程进行监控。实现对任务的预警和管控,如有任务失败时,则后续的处理步骤将自动中断,同时向服务平台自动发送短信与邮件警报,以进行人工干预处理。同时所有处理流程都按照调度服务平台的统一要求进行日志记录。
结语与展望
大数据浪潮,汹涌来袭,与互联网的发明一样,这绝不仅仅是信息技术领域的革命,更是全球范围内启动透明政府、加速企业创新、引领社会变革的利器。在这个过程中,收集数据、使用数据、开放数据,都是大数据时代我们需要一一面对的挑战,这三个挑战,没有一个不是任重道远。
大数据处理,是数据应用的关键环节,缺少完美的过程,就无法奢望满意的结果!提升大数据处理能力,是构建数据分析驱动型组织的关键一环。
文/福建中烟工业有限责任公司 吴正举
……
关注读览天下微信,
100万篇深度好文,
等你来看……