关于电信BOSS中应用数据挖掘技术之探究

  • 来源:教育与学习
  • 关键字:数据仓库,样本,数据集合
  • 发布时间:2022-09-12 19:46

  摘要:20世纪90年代以来,电信业务在国内发展非常迅速,用户数量和业务范围也随之迅速增长。很多情况下,随业务量增长而带来的这些海量数据在原有的作业系统中无法得到提炼,使之升华为有用的信息。数据挖掘技术无疑是解决上述问题的关键,因为虽然在操作型数据库基础上已经进行了不少数据分析,但是通过发挥数据挖掘的优势,才能全面掌握客户的信息,并快速做出相应的决策。本文的设计思想是在数据仓库的基础上进行二次挖掘,多次校验,利用已经成熟的数学模型技术,结合实际情况进行优选,建立模型,进行分析,辅助决策。

  一、综述

  BOSS解决方案分为业务支持系统和操作支持系统。主要组成包括网络管理、系统管理、账单、信息载体内部联系的解决、计费以及客户服务。随着运营网络系统、综合业务系统、计费系统和办公自动化系统等相继投入使用,通信运营商积累了大量的历史数据。但在很多情况下,这些海量数据在原有的作业系统中无法得到提炼,使之升华为有用的信息。原因主要有两方面:一是联机作业系统因为需要保留足够的详细数据以备查询而变得笨重不堪,系统资源的投资跟不上业务扩展的需要;二是管理者和决策者只能根据固定的、定时的报表系统获得有限的业务信息,无法适应当今电信领域激烈的市场竞争。而数据挖掘,就是从海量的数据中,抽取出潜在的、有价值的知识(模型或规则)的过程。也就是根据预定义的商业目标,对大量的企业数据进行探索和分析,揭示其中隐含的商业规律,并进一步将其模型化的先进有效技术过程。

  二、BOSS系统中数据挖掘的实用价值

  数据挖掘技术在电信BOSS领域的应用大致分为几个方面,主要有:一是基于呼叫详细记录的呼叫/计费分析;二是基于产品和销售的营销/效益分析;三是基于网管业务管理和事务管理层的运行/维护分析。前两种与电信企业的业务运营和市场竞争密切相关,是目前主要电信企业发展的重点。而针对网管和运行维护的分析对于提高设备的运行质量和服务质量起到非常关键的作用,是电信企业内部下一步实施的重点。我们主要着重于前两个方面进行分析研究,通过对市场和用户详细的研究和细分,透过现象看本质,从而得出企业运营中的各种情况。

  1、客户发展分析管理

  客户管理应用的目的是根据客户的属性(包括自然属性和行为属性),从不同角度深层次分析客户,从而达到了解客户的目的。针对不同的客户采取不同的促销活动以及提供更好和更有针对性的服务,分析的主要指标包括客户总量分析、新增客户分析、客户流失分析、客户行为分析、客户信用度分析、客户风险分析等等。以此增加新的客户、提高客户的忠诚度、降低客户流失率、提高客户消费额度等。

  2、业务收入分析

  包括业务总量分析、业务增长和流失分析、收入总量及变化分析、缴费及欠费分析等。业务量的综合分析,是按照不同的地域、客户特征、消费层次、呼叫类型、漫游类型等角度对客户的业务量及其增量、新业务的使用量进行分析,以了解不同业务量的客户构成、业务量的变化与发展趋势。通过分析客户的缴费情况,能够清楚了解不同客户缴费的及时率、欠费情况等,所喜欢的缴费渠道等,从而推出有针对性的缴费政策,提高缴费及时率,减少话费流失。

  3、营销管理分析

  营销管理业务范围包括了解客户、电信市场、客户对产品的需求,以及提供如何建立并推销产品或服务给目标客户群等。通过对服务质量的分析,能够了解目前客户最关心的问题,通过将客户流失和服务质量结合起来分析,能够清楚客户为什么会流失以及什么因素会导致客户流失,从而有针对性地提高服务质量,采取相应措施,以减少客户流失量。对与电信公司进行业务合作的各家合作商进行分析,包括银行、SP、证券公司等。分析内容包括银行代收费用比率、代合作商收费比率两个方面,从而为电信公司与供应商提供合作战略、策略制定的参考依据。

  4、大客户分析

  大客户分析包括大客户构成分析、发展及流失分析、业务使用情况分析、业务量变化情况分析。通过对大客户(包括个人和机构)按机构类别、行业性质、年龄、性别、职业等属性的构成进行分析,了解大客户构成与整个客户群体的构成差异,了解按客户自然属性进行同等类型分类下大客户构成与普通客户构成的差异,并通过数据挖掘的手段,挖掘影响客户是否成为大客户的关键自然属性特征。通过对新增/流失大客户在构成、使用业务、使用业务量、服务等的跟踪分析,了解影响大客户新增/流失的主要因素,以便帮助采取更有效措施发展新的大客户与减少大客户的流失。

  三、本选题研究思路

  本文主要针对电信的BOSS解决方案进行研究,实际应用中的数据仓库是ORACLE,所以针对ORACLE数据库进行阐述:

  1、选择数据源

  存放于运营商操作型数据库OLTP中(通常存放在RDBMS中)的各种业务数据和办公自动化(OA)系统包含的各类文档数据以及各类法律法规、市场信息、竞争对手的信息以及各类外部统计数据。如:客户档案信息,话费清单,优惠规则,其他运营商的经营报告等。

  2、建立数据仓库或数据集市

  按照分析主题进行重新组织,建立主题事物表(包含用于分析的测量值和连接维表的主键),包含有关维表(含维属性值和与事实表连接的代理键)的星型结构或多维数据库,最终确定数据仓库的物理存储结构,同时组织存储数据仓库元数据,以支持用户多角度、多层次的分析,发现数据趋势。其具体实现可以分为:ROLAP、MOLAP和HOLAP。ROLAP基本数据和聚合数据均存放在RDBMS之中;MOLAP基本数据和聚合数据均存放于多维数据库中;而HOLAP是ROLAP与MOLAP的综合,基本数据存放于RDBMS之中,聚合数据存放于多维数据库中,这是一个系统工程,是一个不断建立、发展、完善的过程,需要较长的时间。

  利用SQL*LOADER或EXPORT和IMPORT进行数据移入,此过程注意:

  ①消除纯粹是操作型的数据,仅留与主题相关的数据;

  ②将包含在多个表中的有关数据进行合理合并,保持数据的参照完整性;

  ③适当增加部分导出数据,产生一定的数据冗余;

  ④在码值中增加时间关键字,作为最后更新戳,便于以后进行时间序列分析;

  ⑤按照合适的数据粒度进行综合,即考虑分析数据的细节级别;

  ⑥数据仓库测试必须保证测试的充分性,同时注意测试数据的覆盖范围。

  3、利用数据仓库技术进行第一级数据挖掘

  分类即区分数据类别。首先从数据中选出已经分好类的训练集,在该训练集上运用数据挖掘分类的技术,建立分类模型,对未分类的数据进行分类。而估值与分类类似,不同之处在于,分类描述的是离散型变量的输出,而估值处理的是连续值的输出,同时分类的类别是确定数目的,估值的量是不确定的。由于电信业务原因,没有估值,仅进行分类,可以从中产生数据分布图(散布图)。对于关系模型,利用DISCOVERER进行分类,钻取,数据过滤,分层次数据选取,建立相应的报表格式,为二级挖掘提供数据;对于多维数组模型表示的结构,发挥EXPRESS工具的便于针对矩阵运算的优势进行操作。

  4、在数据仓库数据基础上,利用相关的统计分析理论建立数学模型,进行第二级数据挖掘

  (1)预测

    预测是对未来未知变量的预测,这种预测是需要时间来验证的,即必须经过一定时间后,才知道预言准确性是多少。主要利用时间序列分析, 线性分析,回归分析,多元统计分析,灰色预测等方法进行。例如:业务收入预测,客户风险预测,业务实施情况预测等。

  (2)关联规则和聚类

    通过分析数据或记录间的关联程度,决定哪些事情将一起发生。将记录分组,把相似的记录在一个聚集(反映数据之间的关系)里。聚集和分类的区别是聚类不依赖于预先定义好的类,不需要训练集。 如相关业务密切程度分析等。

  5、给出分析结论

  利用决策树,神经元网络,灰色决策等方法进行决策分析。

  6、代入实际数据,进行一致性验证

  不断校验误差,修正模型,提高精确度,进行效果监控,优化分析结果,同时修改相应的决策行为。比如:一段时间某两项业务关联度高,然后出现异常,关联度降低,那么在转折点的分析将出现较大偏差,因此要进行连续的检验,以保证及时发现问题,修订策略。

  参考文献:

  1、邓聚龙,《灰色预测与决策》,华中工大出版社 ,1985

  2、王学萌、 罗建军, 《灰色系统预测决策建模程序集》,科学普及出版社, 1986

  3、陈文伟,《决策支持系统及其开发》,清华大学出版社,1994

……
关注读览天下微信, 100万篇深度好文, 等你来看……
阅读完整内容请先登录:
帐户:
密码: