天安人寿 拥抱互联网 +推进支付服务数字化转型

  业务人员销售中最期盼的是什么?是初次成功约见客户?或是与客户相谈甚欢?抑或是顺利签下合同?……或许这些都因人而异,但一个共有的时刻肯定是看到系统提示收费成功的那一瞬间。在互联网+的今天,移动实时支付在互联网业务中的重要作用显而易见,阿里、腾讯、京东等网络大咖都有自己的支付业务。

  实时支付在保险行业的广泛应用,让用户享受到了更加便捷的服务。市场上存在众多的第三方支付通道、第四方支付通道,保险公司与其合作需要结合很多方面,比如成本管理、性能选择和大额支持等。保险公司数字平台实时支付服务的用途之一就是驾驭各个支付通道,无需人工干预,系统自适应、自选择最佳的支付通道并应用到匹配的业务场景。

  天安人寿的实时支付服务基于松耦合架构,采用云计算、大数据、人工智能技术,为天安人寿十多个系统提供实时支付服务。上线一年多以来,满足了财务部门渠道对接、金额限制等多方面的管理需求,在常态的销售节点高峰期,可轻松应对千万点击量,拥有强悍的服务性能和稳定性。

  云计算,高度灵活可扩展性与强大的SAAS服务

  保险产品在一年中的不同阶段会有不同的销售需求,销售的波峰与波谷对系统负载能力的要求相差巨大。云服务器的高弹性和高可用性在处理能力最大满足业务需要的同时使硬件成本降低。

  天安人寿实时支付服务的服务器部署在云计算平台,根据不同时期的业务需要,随时对服务器配置进行横向或纵向调整。横向上,10分钟之内可以从1台单节点扩展到100台规模的集群,包括负载均衡、缓存、数据库在内的服务器;纵向上,单节点停机升级CPU和内存,只需5分钟;增加和削减资源是双向对称的,当业务高峰消失时,可以同样快速地将配置降低到所需的程度。实时支付服务在硬件投入上可以定时定量匹配业务销售需求,尽可能减少资源浪费或产生瓶颈。

  接入SaaS,互联网技术与保险行业深度融合

  支付服务发生在交易环节中、上游业务系统、下游财务系统和银行端,支付过程场景复杂,变化多端,对系统事务处理能力要求较高。处理高并发复杂事务的基本原则是:大事务=小事务+异步。以一个转账的场景为例来说明这个问题:Bob向Smith转账100元,同步需要11ms,异步处理不超过2ms,两种方式用时差距显而易见,并且在异步处理中,很重要的一个环节是异步消息的传送(消息队列)。

  天安人寿实时支付服务的架构采用典型的分布式多层架构。处理高并发复杂事务的关键是:合理地将业务的一个大事务拆分为若干个异步的小事务,实现子系统间的分工合作。这样在业务高峰期,系统可以较短时间内迅速吃进海量支付请求,而不对服务器造成巨大压力。

  在这个环节,天安人寿借助了RocketMQ消息队列中间件,使系统妥善且高效处理了前后两端的异步交互。RocketMQ具备“海量消息堆积”特性,即单个Topic可堆积100亿+条消息,防止系统高流量崩溃。架构设计过程中,需要着重解决业务如何与云服务进行深度融合,在哪个业务点进行结合,以及如何进行事务拆分,才能在消息队列引入时达到最佳处理性能等诸多问题,实施过程中包含了大量事务分析以及测试验证。

  进行事务拆分后,虽然访问量仍然很大,但每一部分处理都不再需要进行复杂的计算,经过负载均衡和简洁的前端逻辑验证后,数据将被迅速发往消息队列中排队等待后端处理,这样实时支付形成了一种“轻计算,高I/O”特点的处理方式。

  大数据分析唤醒沉眠的海量支付数据

  实时支付服务通过QuickBI实现大数据分析,为用户提供渠道丰富的信息分析与统计,实时支付的记录中包含用户所购买产品的渠道、金额、所用银行卡归属、银联机构类别等主要的特征变量。

  支付系统通过云端的SaaS服务对自身产生的海量数据进行分析,借助云端大数据服务特点:接入简单,使用成本低,查询高效等快速进行操作长生结果。分析结果不但可以帮助渠道用户了解客户的支付习惯和理财习惯,还可以帮助财务部门对使用哪条支付渠道更便捷、成本更低廉进行自动决策。大数据分析功能的加入使支付平台摆脱传统对接转换类型系统的单一形象,拥有了炫酷多彩的前端展示方式,操作人员只需配置好数据源和查询维度,以及用哪种报表和图表进行展示,就可以将一个高效绚丽的数据平台与自身系统无缝衔接。

  人工智能,初步实现系统主动替人做事愿景

  在设计实现支付服务预警功能时,结合了人工智能的设计思想,虽然只是最初级的机器学习方式,但却是向AI这一热门领域迈出的重要一步。

  监控主要针对两部分,一是系统异常,二是支付失败。

  对于系统异常,采用的是扫描系统日志的方式,首先选取了LogStash作为日志采集和分析的工具,LogStash会收集集群服务器中各个节点所产生的日志,并加工成所需内容,再利用AOP设计模式实时监听日志中出现的Java运行异常。

  例如在当前策略中,出现对方网络中断,日志会报出ConnectException异常的堆栈信息,系统实时扫描到此信息,立即以短信的形式通知运维人员采取行动。

  对于业务数据的异常,主要通过扫描日志与数据库相结合的方式。在监控内容上,给预警管理器设定了一些主要的监控字段,最主要的几个比如银联返回时间与请求时间的差、银联、支付结果、前端系统回调状态,再在这些主要字段基础上加入可配置的判定条件,比如请求银联10分钟以内未收到反馈信息,被设定为一类警告,请求某个具体银联10分钟以上没返回的,被设定为另一类警告(银联的处理时间会有差别),以此建立起最初的预警模型。

  系统平台还为预警模块设立了专门的学习资料库,每次发出的预警都会被记录,类似快照功能。运维人员可以对每次的预警记录设定效果等级,预警模块会自动定期读取这些评定,在给定范围内自行对预警条件进行微调,完善预警模型。这样随着时间的增加,模型和学习数据库都将逐步完善,即使增加新的监控条件,预警模块也可以借助已有模型来迅速优化预警条件。预警是由查询分析功能来实现,预警模块另一个重要组件是处理策略。系统不但可以发出通知,还可以根据模型和策略自行处理一些业务上的异常情况。例如,发现某银联在一段时间内,连续多笔业务返回金额超限,系统会自动停止请求该银联,将业务切换到其它可以使用的银联通道。

  当下,云计算的使用不再是简单的接入,自身业务的分析与云的结合才是金融单位信息技术部门今后需要长期探索的方向。机器学习的算法大多比较复杂,天安人寿虽然目前在系统中加入这个功能旨在勇于尝试,技术团队还在继续研究和完善,但经过更深入的探索和学习后平台系统必将有更大进步。“体量小,性能强,技术新”,互联网技术应用的强大优势注定其将越来越有效促进和支撑整个行业甚至社会的进步与发展。

  天安人寿保险股份有限公司 姚仁毅

关注读览天下微信, 100万篇深度好文, 等你来看……