去结算

征信业的数据陷阱与鸿沟

来源:瞭望东方周刊
关键字:大数据征信
发布时间:2016-01-30 10:49

　　中国大数据征信还处于第一阶段，就是解决数据来源和数据失真问题的阶段，还没到第二个模型优化的阶段。

　　2016年1月的一个上午，考拉征信服务有限公司（以下简称“考拉征信”）总裁李广雨拿着新年的台历，走进会议室。

　　“新的一年来了，但我们还不知道个人征信牌照什么时候发。”李广雨对《瞭望东方周刊》说。

　　早在2015年7月，央行就对外宣布，结束对包括考拉征信的8家社会机构试点个人征信业务的验收。从那时起，这块个人征信牌照何时发放就成为热点。

　　从2015年1月宣布试点，央行给了8家机构6个月的准备时间。最后的验收，也并不简单。

　　“央行主要考察了4部分：数据准备情况；在相关的系统和技术方面的准备情况；在人员、组织结构，内控制度、风险管理方面情况；以及产品准备、业务设计情况等。”李广雨说。

　　其中，对于数据准备情况的验收，业内普遍讨论和关注得很多。李广雨解释称，央行验收重点考察了数据规模、数据合法性以及数据能否真的应用于征信领域等等方面。

　　究竟是哪些大数据上的难题，阻碍了征信牌照的落地？

　　未公开的负向信息

　　对于社会性的征信公司而言，大数据主要有三个来源：自有数据、外部数据以及合作共享的数据。

　　不同征信机构的自有数据不尽相同，与该公司的背景有关。比如芝麻信用的自有数据，多来自于阿里巴巴业务沉淀下的数据。

　　“阿里巴巴本身有很多价值较高的交易数据，还包括互联网行为数据，等等。我们也会考虑支付宝里的人脉关系等数据源，甚至包括物流来确认你的地址数据，等等。”蚂蚁金服副总裁、首席数据科学家漆远告诉《瞭望东方周刊》。

　　除了数据价值，芝麻信用的优势或许在于，数据规模够大。虽然也有业内人士认为，数据与业务的相关性更重要，并且“数据大”和“大数据”并不等价，但对征信公司而言，拥有不同面向和更大规模的数据，总会更好。

　　考拉征信的做法是让更多公司入股。

　　“我们有7家股东，包括拉卡拉、梅泰诺、51Job，等等，那么就有交易数据、通信数据、职业数据，等等。同时，我们是开放的，也欢迎新股东入股。”李广雨告诉本刊记者。

　　值得一提的是，与央行征信中心本身拥有数据不同，目前征信公司的自有数据，只是通过打通不同数据源接口，在用户授权的情况下，使用这些数据，形成征信报告。

　　对于一些没有大批量核心业务沉淀的征信公司来说，自有数据还包括互联网数据。

　　“比如通过爬虫抓取淘宝、京东的交易数据等，这些互联网大数据也是重要资源。”北京信用协会大数据征信专委会发起人王卫东告诉《瞭望东方周刊》。

　　而外部数据，则指对外公开的数据，主要是政府数据，比如工商、法院的数据等。“现在大家的外部数据相差并不大。”漆远说。

　　只是，这些数据还不够用。李广雨告诉本刊记者，征信公司对大数据要求始终是越多越好，越丰富、越广泛越好。

　　“特别是一些负面信息，比如恶意违章，旅游局的游客黑名单，企业的欠税、环保和质监处罚情况，等等。这些信息藏起来，也起不到对社会的约束作用，如果公开了，却能为我们提供很大价值。”李广雨说。

　　共享数据艰难

　　与不同机构和行业合作，共享数据，也是征信公司的重要数据来源之一。只是，共享数据太过艰难。

　　征信公司服务的金融领域，特别是互联网金融借贷领域，正在遭受同行业数据壁垒过高的风险。比如“一人多贷”。

　　用户向多家互联网金融P2P平台借贷，再卷款逃走。对于P2P公司而言，该用户达到发放贷款标准，即可放贷，却由于平台之间互不相通，并不了解该用户是否在其他平台借了款，从而造成“一人多贷”局面出现。

　　更严重的，甚至会出现“组团骗贷”的欺诈行为。一些人本着欺诈的目的，先雇几十个人，固定发工资，数月后通过这些人向不同的平台借款，再卷款逃走。

　　面对这种风险，P2P公司选择了“打折”。

　　“就因为有一人多贷现象的存在，业界普遍的做法就是贷款打折。比如，明明可以给某某某放10万元，但只贷1万元。这个效率是非常低的。”积木盒子联合创始人魏伟告诉《瞭望东方周刊》。

　　另一个解决办法，则是通过数据公开共享，共同降低行业风险。

　　北京宜信致诚信用管理有限公司（以下简称“致诚信用”）董事总经理赵卉告诉《瞭望东方周刊》，其已开放宜信9年业务积累的个人借贷数据“阿福平台”，供从业者查询。

　　只是对P2P公司而言，即便对第三方征信公司，也很难开放自己的数据。

　　“因为数据共享，在读取对方数据的同时，还要求写入自身的数据。P2P公司之间是竞争关系，我不可能把自己的客户信息告诉对方。”魏伟说。

　　2015年12月28日，银监会关于《网络借贷信息中介机构业务活动管理暂行办法（征求意见稿）》公布，其中就包含了由银监会牵头，建立网络借贷行业中央数据库。

　　“对这个数据库我很愿意开放，行业内都对它开放，把这个数据库做得很完备。因为它是利益无关方，我通知它没关系，我拿到的只有好处，没有坏处。”魏伟说。

　　数据质量堪忧

　　在魏伟看来，互联网金融企业选择征信公司，主要看其产品效果，“比如说产品覆盖率，我每查10个人，有8个没数据，那我没法和它合作。”

　　而对于大数据征信的质量，业界普遍持一种发展的眼光看待。

　　“为什么做大数据征信？因为最好的数据是贷款表现数据，这些掌握在银行和P2P金融机构手里，不容易拿到。所以必须通过其他别的方式去评估。”李广雨向本刊记者坦言。

　　这导致的一个结果，就是信用评分相差很大。

　　比如考拉信用分与芝麻信用分，虽同是对个人信用的评价，并且公布的五个维度也十分相似，但由于基础数据及评估模型的不同，两个分数有可能相差甚大。

　　“这很正常。就好像你请两个咨询公司，做出来的报告和评分也有可能完全不同。最终取决于市场选择，看看哪个评分与公司本身业务最相关。”李广雨解释说。

　　而让李广雨真正担忧的，是数据质量问题。

　　一位不愿意透露姓名的业内人士告诉本刊记者，曾问过相关合作方，是否把数据都拿出来共享合作了，“都说不是，都有所保留。”数据一开始就不全，质量存在问题。

　　其次，信贷数据需要一个新鲜的信用表现期，需要持续更新。这更难。甚至会出现刻意隐瞒的事情。

　　上述不愿透露姓名的业内人士举例称，一个客户有逾期，但后来还款了，按理说应是个好客户。但有些公司就故意不更新客户还款信息，让行业内的人认为这是个坏客户，从而达到独自占有客户的目的。

　　“所以中国大数据征信还处于第一阶段，就是解决数据来源和数据失真问题的阶段，还没到第二个模型优化的阶段。”李广雨说。

　　为解决数据质量问题，赵卉告诉本刊记者，致诚征信的解决方案是接入多个数据源，“我们做企业征信的‘企福平台’，外部数据的同类数据，会接两到三家。”

　　该不该有“被遗忘权”

　　大数据用于征信，在金融领域，数据来源是否合法合规显得尤为重要。

　　上述不愿透露姓名的业内人士向本刊记者透露，一些数据或IT公司通过承包政府工程，或是给银行做技术支持，也会沉淀一些数据。

　　“他们也拿这些数据去卖，但这些数据并不是通过他们做业务得到的，实际上是非法的。”该人士对本刊记者说。

　　“巴菲特有句名言，潮流过后可以看到有哪些人在裸泳。再往下走，不规范的公司会暴露问题的。”漆远对本刊记者评论道。

　　和世界多数国家相比，中国尚未有专门而详尽的《个人信息保护法》，仅有《征信业管理条例》《征信机构管理办法》《征信机构监管指引》。对泄露公民信息要承担何种责任，并无具体规定。

　　“在征信这块，我认为需要建立双授权机制，个人既要向征信公司授权，允许采集个人信用信息，也要向相关机构授权，允许其查看个人信用信息。”王卫东告诉本刊记者。

　　个人隐私保护的边界问题，也会对大数据征信的最终能使用哪些数据造成直接影响。而在国外，甚至出现了“被遗忘权”的概念。简单来说，就是公民可以在其个人数据不再需要时提出删除要求，选择“被遗忘权”。

　　欧洲法院2014年5月13日裁定，普通公民的个人隐私拥有“被遗忘权”，并据此要求谷歌必须按照当事人要求删除涉及个人隐私的数据。自2016年1月开始，俄罗斯公民也开始享有互联网“被遗忘权”。

　　《瞭望东方周刊》记者陈振华/北京报道

……

关注读览天下微信， 100万篇深度好文，等你来看……

立即购买本期杂志

查看本期更多内容

关于我们 | 联系我们 | 帮助中心 | 新手指南 | 客服中心 | 免责声明 | 最新招聘 | 支付流程及方式 | 合作媒体 | 友情链接 | 网站地图 | 手机版

iPhone

iPad

nexusone

Kindle

sony

nook

gemei

ViewSonic

华芯飞

客服QQ

2952844722

(周一到周五9:00 - 18:00) 邮箱地址

2952844722@qq.com

软件产品登记证书出版物经营许可证
增值电信业务经营许可证粤B2-20070236 粤ICP备09125457号