征信业的数据陷阱与鸿沟
- 来源:瞭望东方周刊 smarty:if $article.tag?>
- 关键字:大数据征信 smarty:/if?>
- 发布时间:2016-01-30 10:49
中国大数据征信还处于第一阶段,就是解决数据来源和数据失真问题的阶段,还没到第二个模型优化的阶段。
2016年1月的一个上午,考拉征信服务有限公司(以下简称“考拉征信”)总裁李广雨拿着新年的台历,走进会议室。
“新的一年来了,但我们还不知道个人征信牌照什么时候发。”李广雨对《瞭望东方周刊》说。
早在2015年7月,央行就对外宣布,结束对包括考拉征信的8家社会机构试点个人征信业务的验收。从那时起,这块个人征信牌照何时发放就成为热点。
从2015年1月宣布试点,央行给了8家机构6个月的准备时间。最后的验收,也并不简单。
“央行主要考察了4部分:数据准备情况;在相关的系统和技术方面的准备情况;在人员、组织结构,内控制度、风险管理方面情况;以及产品准备、业务设计情况等。”李广雨说。
其中,对于数据准备情况的验收,业内普遍讨论和关注得很多。李广雨解释称,央行验收重点考察了数据规模、数据合法性以及数据能否真的应用于征信领域等等方面。
究竟是哪些大数据上的难题,阻碍了征信牌照的落地?
未公开的负向信息
对于社会性的征信公司而言,大数据主要有三个来源:自有数据、外部数据以及合作共享的数据。
不同征信机构的自有数据不尽相同,与该公司的背景有关。比如芝麻信用的自有数据,多来自于阿里巴巴业务沉淀下的数据。
“阿里巴巴本身有很多价值较高的交易数据,还包括互联网行为数据,等等。我们也会考虑支付宝里的人脉关系等数据源,甚至包括物流来确认你的地址数据,等等。”蚂蚁金服副总裁、首席数据科学家漆远告诉《瞭望东方周刊》。
除了数据价值,芝麻信用的优势或许在于,数据规模够大。虽然也有业内人士认为,数据与业务的相关性更重要,并且“数据大”和“大数据”并不等价,但对征信公司而言,拥有不同面向和更大规模的数据,总会更好。
考拉征信的做法是让更多公司入股。
“我们有7家股东,包括拉卡拉、梅泰诺、51Job,等等,那么就有交易数据、通信数据、职业数据,等等。同时,我们是开放的,也欢迎新股东入股。”李广雨告诉本刊记者。
值得一提的是,与央行征信中心本身拥有数据不同,目前征信公司的自有数据,只是通过打通不同数据源接口,在用户授权的情况下,使用这些数据,形成征信报告。
对于一些没有大批量核心业务沉淀的征信公司来说,自有数据还包括互联网数据。
“比如通过爬虫抓取淘宝、京东的交易数据等,这些互联网大数据也是重要资源。”北京信用协会大数据征信专委会发起人王卫东告诉《瞭望东方周刊》。
而外部数据,则指对外公开的数据,主要是政府数据,比如工商、法院的数据等。“现在大家的外部数据相差并不大。”漆远说。
只是,这些数据还不够用。李广雨告诉本刊记者,征信公司对大数据要求始终是越多越好,越丰富、越广泛越好。
“特别是一些负面信息,比如恶意违章,旅游局的游客黑名单,企业的欠税、环保和质监处罚情况,等等。这些信息藏起来,也起不到对社会的约束作用,如果公开了,却能为我们提供很大价值。”李广雨说。
共享数据艰难
与不同机构和行业合作,共享数据,也是征信公司的重要数据来源之一。只是,共享数据太过艰难。
征信公司服务的金融领域,特别是互联网金融借贷领域,正在遭受同行业数据壁垒过高的风险。比如“一人多贷”。
用户向多家互联网金融P2P平台借贷,再卷款逃走。对于P2P公司而言,该用户达到发放贷款标准,即可放贷,却由于平台之间互不相通,并不了解该用户是否在其他平台借了款,从而造成“一人多贷”局面出现。
更严重的,甚至会出现“组团骗贷”的欺诈行为。一些人本着欺诈的目的,先雇几十个人,固定发工资,数月后通过这些人向不同的平台借款,再卷款逃走。
面对这种风险,P2P公司选择了“打折”。
“就因为有一人多贷现象的存在,业界普遍的做法就是贷款打折。比如,明明可以给某某某放10万元,但只贷1万元。这个效率是非常低的。”积木盒子联合创始人魏伟告诉《瞭望东方周刊》。
另一个解决办法,则是通过数据公开共享,共同降低行业风险。
北京宜信致诚信用管理有限公司(以下简称“致诚信用”)董事总经理赵卉告诉《瞭望东方周刊》,其已开放宜信9年业务积累的个人借贷数据“阿福平台”,供从业者查询。
只是对P2P公司而言,即便对第三方征信公司,也很难开放自己的数据。
“因为数据共享,在读取对方数据的同时,还要求写入自身的数据。P2P公司之间是竞争关系,我不可能把自己的客户信息告诉对方。”魏伟说。
2015年12月28日,银监会关于《网络借贷信息中介机构业务活动管理暂行办法(征求意见稿)》公布,其中就包含了由银监会牵头,建立网络借贷行业中央数据库。
“对这个数据库我很愿意开放,行业内都对它开放,把这个数据库做得很完备。因为它是利益无关方,我通知它没关系,我拿到的只有好处,没有坏处。”魏伟说。
数据质量堪忧
在魏伟看来,互联网金融企业选择征信公司,主要看其产品效果,“比如说产品覆盖率,我每查10个人,有8个没数据,那我没法和它合作。”
而对于大数据征信的质量,业界普遍持一种发展的眼光看待。
“为什么做大数据征信?因为最好的数据是贷款表现数据,这些掌握在银行和P2P金融机构手里,不容易拿到。所以必须通过其他别的方式去评估。”李广雨向本刊记者坦言。
这导致的一个结果,就是信用评分相差很大。
比如考拉信用分与芝麻信用分,虽同是对个人信用的评价,并且公布的五个维度也十分相似,但由于基础数据及评估模型的不同,两个分数有可能相差甚大。
“这很正常。就好像你请两个咨询公司,做出来的报告和评分也有可能完全不同。最终取决于市场选择,看看哪个评分与公司本身业务最相关。”李广雨解释说。
而让李广雨真正担忧的,是数据质量问题。
一位不愿意透露姓名的业内人士告诉本刊记者,曾问过相关合作方,是否把数据都拿出来共享合作了,“都说不是,都有所保留。”数据一开始就不全,质量存在问题。
其次,信贷数据需要一个新鲜的信用表现期,需要持续更新。这更难。甚至会出现刻意隐瞒的事情。
上述不愿透露姓名的业内人士举例称,一个客户有逾期,但后来还款了,按理说应是个好客户。但有些公司就故意不更新客户还款信息,让行业内的人认为这是个坏客户,从而达到独自占有客户的目的。
“所以中国大数据征信还处于第一阶段,就是解决数据来源和数据失真问题的阶段,还没到第二个模型优化的阶段。”李广雨说。
为解决数据质量问题,赵卉告诉本刊记者,致诚征信的解决方案是接入多个数据源,“我们做企业征信的‘企福平台’,外部数据的同类数据,会接两到三家。”
该不该有“被遗忘权”
大数据用于征信,在金融领域,数据来源是否合法合规显得尤为重要。
上述不愿透露姓名的业内人士向本刊记者透露,一些数据或IT公司通过承包政府工程,或是给银行做技术支持,也会沉淀一些数据。
“他们也拿这些数据去卖,但这些数据并不是通过他们做业务得到的,实际上是非法的。”该人士对本刊记者说。
“巴菲特有句名言,潮流过后可以看到有哪些人在裸泳。再往下走,不规范的公司会暴露问题的。”漆远对本刊记者评论道。
和世界多数国家相比,中国尚未有专门而详尽的《个人信息保护法》,仅有《征信业管理条例》《征信机构管理办法》《征信机构监管指引》。对泄露公民信息要承担何种责任,并无具体规定。
“在征信这块,我认为需要建立双授权机制,个人既要向征信公司授权,允许采集个人信用信息,也要向相关机构授权,允许其查看个人信用信息。”王卫东告诉本刊记者。
个人隐私保护的边界问题,也会对大数据征信的最终能使用哪些数据造成直接影响。而在国外,甚至出现了“被遗忘权”的概念。简单来说,就是公民可以在其个人数据不再需要时提出删除要求,选择“被遗忘权”。
欧洲法院2014年5月13日裁定,普通公民的个人隐私拥有“被遗忘权”,并据此要求谷歌必须按照当事人要求删除涉及个人隐私的数据。自2016年1月开始,俄罗斯公民也开始享有互联网“被遗忘权”。
《瞭望东方周刊》记者陈振华/北京报道