FinTech生态圈示意图
而作为融资领域内的核心技术,今天手把手带你读懂智慧金融就要带着大家看懂融资的核心技术,也就是“信用评级”体系。一般而言,信用评级体系分为B端跟C端两端,而本次我们将带领读者深刻认识C端线上评级模型的发展历程。
在欧美银行体系的发展历程中,为强化对客户的融资服务多样性,开始就房贷、车贷、学贷甚至信用卡贷款等放款资格展开系统性开发,自此也为信用评级的发展打下基础。
从传统信用评级体系的发展来看,面谈、各类收入、税单甚至资产证明的提交都让银行有能力对客户的信用水平进行评估。至此,依据个人信息基础所制作的信用评分卡(Scorecard)也成为信评体系的基础。
传统银行信用评分卡的组成变量体系
对传统信用评分卡而言,通过线性逻辑回归方式设计的一套架构,所依靠的数据则是通过征信取得结构化的相关数据。由于设计较为单纯,所需数据乃至计算也相对简单,完全可通过人为操作来完成,对于、技术的门槛都不是太高。
银行传统的scorecard在方法上高度依赖一些经验总结出来的规则,甚至是财务专员个人的专业经验来构建变量体系。这是基于经验法则归纳出对人的行为体系的完整设想,采用逻辑回归建模来获得这些经验变量所对应的参数与重要性。然而,这些变量在很大程度上逻辑是简单而直观的,例如在欧美,邮政编码的前几位会被用来表征申请者的财富情况,因为每个区域的价值是不一样的。
线上信评模型的特征
对传统银行而言,受到网点数量有限的影响,客户开发、服务能力也相对受到限制;然而,智慧金融的普及却打破了传统银行的壁垒,并快速拓宽客户群体的范围。
与传统信评模式特征不同,线上业务是跟着线上消费场景而来,覆盖人群也大于线下。由于不少线上人群未曾接受过线下服务,因此存在征信材料不足的问题,这也使得他们无法成为获得传统银行提供的授信资格。
FICO\芝麻信用分组成比重
不过,随着线上数据的采集趋于完善,线上评级也不再需要透过征信资料,只要能从网上生产的一些材料便能对他的信用水平做出大致的评估。在过程中,只要经过贷款者授权就能取得许多片段、多维度的数据。也因此,通过科技手段,就能迅速地对借贷人做出一个全景式的信用评估分析。
从审核速度来看,线下申办信用卡从提交材料到进行实质审查可能需要一周,但通过线上数据的获得到决定是否放款只需要几分钟的时间。此外,线上信评能同时服务多个用户,这不仅要在算力上具备同时对多个目标用户进行挖掘的技能,也对模型的精确度有着极高的要求。
随着新技术或着新的生活方式浮现,我们很难用以往的经验法则去解释。而深度学习(Deep learning)作为辅助工具也让很多过程中的变量成为决策过程中难以有效解释的黑匣子(Black Box)。
数据层次的积累使得模型精确性获得显著提升
从大数据分析的结果来看,得到的预测效果非常好,但从业务层面来看,却存在许多没法解释的问题。截至目前,线上信评面临最大的挑战便是我们解释为何在建模过程中选择特定变量或者排除其他特定变量。
线上信评模型中存在诸多人类经验法则无法理解的变量筛选,导致我们将这套模型应用到特定场景时却无法回应为什么这个信评模型能有效运作。不过,由于数据量足够庞大,这套模型在决策过程中的精确性仍优于传统的信评模型。但数据类型过于繁杂,导致我们很难解释这套模型运作的内在合理性。这也是学术界和工业界在不断努力解决的问题,现在已经有一些不错的对算法黑盒进行解释的尝试,如LIME。
线上评级模型面临的挑战
随着大数据评级模型成为现实,如何提高模型的可解释性也成为当前遭遇的最大挑战。从行业发展趋势来看,互联网行业侧重模型精确度的提升,但要想真正在金融场景获得普及时,模型的透明度与可解释性将成为关键要素。
从美国的行业经验来看,当企业设计出新的模型后,需要将模型的各项变量机制提交给一个专责机构进行审查。其中针对模型变量是否带有歧视性、数据来源是否合规、这些变量是否具有必要的合理性都是审查重点。由此也衍生出数据安全、数据取得的合法性两大问题。
也因此,随着大数据应用的普及进一步提升,在追求模型精确性的同时,如何从伦理的角度出发,不让数据出现滥用也成为各方关注的重点。可以预期的是,线上信评将面临各种挑战,但却也给我们带来了极大的机会。