记者 黄锴 上海报道
当谈及如何用大数据进行P2P征信时,P2P平台“信而富”CEO王征宇举了这么一个例子:美国最大的 P2P平台Lending club,曾尝试通过用户在Facebook上的表现来确定其信用度,结果遭遇惨痛的滑铁卢。之后,Lending club转而向美国征信局这一传统机构获得数据,平台上的坏账率随之下降了许多。
“这个例子表明,P2P征信不能想当然。”王征宇称,“社交网络上的互动,并不能很好地反映用户的金融信用。”
Lending club的教训,放在国内的P2P公司身上同样有效。事实上,国内大多数P2P在征信方式上都遇到了不小困惑:大数据是P2P风控领域的热词,但到底哪些数据有用,哪些数据无用,又有哪些工具能让大数据的分析结果更加准确,大家心里并没有底。
与国外公司相比,国内P2P的征信难度显然更高。目前,政府和银行体系掌握大量的基础数据,但这些系统大多是孤立与封闭的,有无数信息孤岛等待连通。而银行掌握的最重要的资金交易数据,也不会开放给P2P。这些因素,纷纷限制着P2P平台快步迈入大数据时代。
即便困难重重,大数据对于P2P来说依然是一座金矿。就信而富来说,公司正尝试着从各种信息纬度中提炼价值,建立起一套自动化的授信决策机制。在此基础上,公司通过借款过程中的不断试错,随时修改与优化原有的风控模型。
眼下,将大数据与P2P结合,应用于风控,国内还没有成熟的案例。不过,相关的尝试从未停止。
数据里的秘密
眼下,P2P网贷中最核心的障碍仍是征信系统的不健全,这直接制约了P2P网贷的信用评估、贷款定价和风险管理。在尚未介入央行征信系统的情况下,许多P2P平台不得不开展线下的尽职调查。
信而富的客户主要集中在三四线城市、边远地区及农村,很多地方甚至连网络都不具备,因此,公司采取了100%亲核亲访,来复核数据与控制风险。
王征宇介绍称,信而富上已经成功借到款的用户大概有几十万人,出借人大约有10万人。在征信数据采集的过程中,公司对每个借款个体采集的数据项都超过1500个。通过这些数据,信而富试图回答三个问题:借款人的还款意愿、还款能力以及稳定性。
具体说来,公司的自动化授信决策引擎,所依据的主要是三个纬度:首先,借款人在给定的一段时间内,还款的可能性是多少。第二,这个申请从根本上来说,有 多大可能性是假的。换言之,也许申请人提交的数据很漂亮,但却运用了别人的名义或采用了假的数据。第三,这笔借款预测风险调整后的收益是多少。通俗来讲, 就是借款人借到钱后,可以为出借人贡献多少收入。
在数据分析时,信而富会从大量的“细枝末节”中寻找线索。比如,在1500个数据项 中,公司会关注申请人的邮政编码最近12个月是否变更?关联的信用卡张数是否变化,最近3个月、6个月的信用卡消费总额、交易类别与交易次数是否出现异常 等。将这些数字进行各种各样的多纬度汇总后,信而富可以完整地展现申请人在各个时间点的行为特征,并由此为贷款申请自动打分。在此基础上,公司会根据不同 的借款类型、不同的地区、贷款的用途等,组成一个网状的决策机制,最后采取相应的授信策略。
在通过大数据进行信用分析与风控方面,美国P2P平台的做法同样值得行业借鉴。创立于2010年并连续获得投资的美国公司ZestCash,正是把那些被忽略的数据激活了。
比如,在浏览ZestCash网站时,用户在网站的所有操作就像表情一样传递到它的后台。停留时间、填表时间、填写过程,反映出的心理活动可能是踌躇, 也可能是对文字的识别能力、受教育程度等。这些都被ZestCash记录在案,并成为信用评分的变量。此外,用户是否拥有一些健身俱乐部、读书会的卡,也 将作为参考。
按ZestCash的说法,其决策模式是在进行大量个体数据运算的同时,做出贷款决策。这个模式将从原始数据中收集数千 种变量,接下来,建模计算找出这些数据之间的关系,将其中有效的变量转化成最有用的数据。这其中,模型的建立至关重要,“如果你的数学模型错了,数据便没 有任何意义,或根本就是误导”。ZestCash的创始人Douglas Merrill表示。
试错与创新
事实 上,在数据采集完成后,简单的技术分析并不能解决“还款意愿、还款能力以及稳定性”这三个问题。在目前的征信体系中,P2P平台需要通过建立模型以及目标 变量,不断模拟研究数据与信用行为之间的关系。在不断地放贷中,P2P公司也需要根据本土化的变量因素进行调整,来优化信贷模型。
举例来说,人们通常认为,手机用户的开户时间越长,手机号码从不改变且经常使用,就是稳定性的标志。但在王征宇看来,这其中仍有许多不确定的因素。“手机号用多少年算长?是两年还是三年,或是十年?”他说道,“每个公司通过测试都会有不同的结论。”
信而富的做法是,针对使用一年、两年、三年、五年号码的手机用户分别作一些测试,通过这些用户的借款行为不断进行总结。“假使我们发现,使用手机号少于 三年零两个月的用户贷款风险较高,过了这个点后风险率显著下降,那么三年零两个月这个数字就是信而富的授信标准,也是公司的核心机密。”王征宇称。
与此同时,这个数据并不是一成不变的,“如果放贷两万对应的是三年零两个月的手机账龄,那么放贷三万、四万呢?是否还是相同的账龄呢?这些都需要通过长时间的测试来得出结论。”
在他看来,不断试错应该成为P2P公司的一种理念和文化,一旦形成了核心的数据测试和分析能力,那么也就建立起了竞争的门槛。“其他公司要模仿,绝对不是抄袭一个数字那么简单,因为里面的变化是层出不穷的。”
在基于大数据的分析和使用上,P2P公司显然还能做得更多。一位P2P从业者称,一些公司甚至可以做到客户还没有想到要融资,但P2P企业已经推算出他在什么时间节点需要资金周转,提前向其推送融资的服务方案。
打个比方,一个借款人在P2P网站的借款时间是8月,但通过计算可以得知其资金周转其实发生在6月,再分析数据后得知是5月的货物滞压造成的。那么在贷后服务中,P2P网站就会了解贷款人的经营情况,进一步分析可能造成其下一次资金周转的时间,并提前制定贷款方案。
这些工作看似简单,但实际操作中需要根据借款人的年龄、学历、所在地区、交易流水等情况和数据库中类似的借款人做对比,最后计算出合理的借款额度、利率和还款方式。这种预测和分析背后都离不开大数据的支持。尽管这样的案例目前还很少,但完成后的反响似乎不错。
信而富也尝试过利用数据分析将不同类别的借款标的与不同风险偏好的出借人做匹配,帮助双方找到最合适的投资对象与出资人。但尝试后发现,国内目前还没有基于“风险收益”的土壤,大部分出资人仍青睐低风险、刚性兑付的模式。这种情况下,这项创新目前只能被暂时搁置。
不要迷信大数据
眼下,国内越来越多的P2P平台试着依靠大数据建立信用评估体系。以阿里巴巴为代表的大公司,也纷纷涌入这个领域。
阿里推出的招财宝,本质就是P2P平台,一方是个体工商户、淘宝商家等小微企业,另一方则是淘宝与支付宝共同拥有的3亿用户。在这些用户中,不少人有着较强的理财需求。相对于其他平台,招财宝的优势在于掌握了投资方与融资方的信用和交易数据,在客户群体上更有针对性。
此前,阿里巴巴已经针对平台上的卖家设立了小贷公司。据悉,在对商户的历史交易流水进行分析和定量后,阿里小贷的坏账率由最初的10%下降到了1%左右。
即便大数据能帮助企业预测及控制风险,但不得不说,大数据并不是万能的。
王征宇指出,用数据来驱动决策的思路没错,但实际情况是,数据采集得越多,审核纬度越多,风控流程越复杂,而由此带来的“数据噪音”也越多,模型越失真。
“你会发现有的数据很有用,有的数据帮助不大。但你只有掌握了全部数据后,通过分析使用才知道哪些数据有用,哪些没用。”他说道。
在信而富设置的上千个数据纬度中,实际有用的数据可能只有100个。况且,不同数据纬度间的逻辑关系,也很有可能产生冲突。这些都是大数据在实际应用中遭遇的困境。
有业内人士称,基于全部数据的风控模型几乎是建立不起来的,就算建立起来,通过该模型验证的也极可能是人格完美的人。事实上,小微企业主通常会有缺陷, 一些待人接物态度不佳的企业主,很可能信用良好,因为他有议价权。相反,一些待人接物很礼貌的企业主,实际金融信用并不好,他可能是为了获得贷款,而表示 出良好的态度。
值得一提的是,不少P2P公司将用户在微博、Facebook等社交网络上的数据作为信用的参考依据,但这么做很可能 会产生误导。首先,互联网上的人性是被放大的,许多人在现实中不敢说的话,在网络上却敢说。现实中内向的人,在网络上或许会很外向。换言之,社交网络上的 信息很难还原用户在现实中的信用。
其次,社交信用并不等于金融信用。人的信用是多方面的,有朋友信用、爱情信用、事业信用、其他社会信用和金融信用等,如果把每一类信用都看成一个面,其他几个面的信用与金融信用并不一定存在相关性。
王征宇并不讳言,数据分析的过程中,算法和建模的难度很大,而既懂技术又懂业务、知道如何把数据转化为商业洞察力的人才,国内几乎没有。“这种情况下,要将大量的数据转化为实际应用,我们的速度还不太跟得上,这是我们当下面临的最大挑战。”(编辑 卢爱芳 施建)