1. 首页
  2. 观点

你的信用打几分 带你认识网络大数据征信

引言

金融市场的发展与信用体系的完善是分不开的,征信的产生让原本碎片化的信用信息有了用武之地,相关数据的搜集与挖掘也成了金融创新的核心组成部分。征信的积极意义是不容置疑的,它有效地缓解了资金供给方与资金需求方之间的信息不对称问题,提升了社会闲散资金的撮合效率,并促使资金使用成本降低和信贷规模扩张。

传统金融机构很早就在使用基于线下数据的征信模型,并催生了一大批提供征信服务的第三方机构。在信用评级领域(主体和债项评级),美国有享誉世界的三大信用评级机构:标普、穆迪、惠誉,中国也有类似的中诚信、大公国际、中债资信等。而在信用评分领域(机构和个人征信),美国有三大征信局和FICO,中国则主要是中国人民银行征信中心。

随着互联网的发展,芝麻信用、百行征信等基于线上数据的新型征信机构开始出现,代表性的金融科技企业也在大力研发和使用自主设计的信用评级与评分系统。对于线上消费、支付、社交和交易等场景来说,为何要研发新的征信模型,这些新模型又具有哪些值得称道的新花样,其在金融科技企业的业务流程中又发挥出什么样的基础性作用呢?本文将就此展开介绍。

图1:技术变革推动征信行业发展

你的信用打几分 带你认识网络大数据征信
当征信模型遇到互联网大数据

传统的征信模型发展至今已经衍生出一整套自成体系、成熟稳健的分析框架,并在传统的金融领域继续发挥着不可或缺的作用。然而,如今线上活动的规模和频次在很多领域里已经远远超越线下,但传统金融机构在这些领域的布局迟缓,反而是互联网企业借助创新思维和先发优势,发展出一整套新型的金融形态。

而近期随着数据存储和计算能力指数型增长,分布式云存储和大数据分析技术也高速发展,使得原本不宜获取和解析的数据具备了信息挖掘的可能,而传统征信模型实时处理这些数据的能力相对有限,正面临来自各方的挑战。以下归纳几点传统征信模型的薄弱点和网络大数据征信模型的创新特征:

(1)传统征信覆盖群体受限,而网络征信普惠型特征突出。

首先,传统征信模型的服务对象主要是商业银行等受央行、银保监会等直接监管的传统持牌金融机构,而将大量游离于主流监管之外的互联网公司和高科技企业排除之外。这就导致创造了大量新型金融业态的金融科技企业难以依赖传统征信模型进行风险控制,需要依据自身特点研发新的网络征信模型。

其次,传统征信模型主要用于解决具有完整信用历史、高信用评分客户的信贷问题,而将大量缺少优质信贷记录的无信用评分客户和低信用评分客户排除在外。这就导致大量低收入群体和中小微企业信贷成本高昂,或者信贷额度偏低,而这一细分市场是大多数网络小贷企业专注的领域,新的网络征信模型也就此细分领域逐渐发展出一整套新型的高效能数据挖掘方法。

(2)传统征信数据结构单一,而网络征信数据源更为丰富。

首先,传统征信模型主要服务于传统金融机构,并依赖于客户信贷记录,数据大多来源于与此直接相关的银行体系和线下渠道,比如我国的央行征信系统主要采集传统金融机构定期报送的信贷历史和征信查询记录。这就导致金融科技企业很难直接获取这些受相关监管法规严格限制的敏感数据以便用于构建征信模型,转而从电子商务、网络社交、电子支付等多场景线上数据入手。

其次,传统信用评估模型为了保证统计模型采集和分析的数据维度相对结构化和低维度,一般只涉及二三十个变量,缺少大量非结构化和稳定性差的线上多维度复杂数据。这一方面保证了传统征信模型的结果稳定性,但另一方面也导致没法对缺少相关标准化信贷记录的客户进行风险评估,而新的网络征信模型所使用的数据维度可以高达几千个,涵盖消费者各类可搜集的基本信息和行为数据,解决了数亿被排除在传统征信之外的网民的信用评估问题。

图2:传统征信系统(美国FICO评分)的数据权重

你的信用打几分 带你认识网络大数据征信
(3)传统征信过于追求稳健,而网络征信自动化程度高。

首先,传统征信模型所使用的数据频度相对较低,且主要是基于历史统计规律对采集的个体信用历史资料和历史数据库中的总体信用习惯进行比较,从而推断客户陷入财务困境和违约的发展趋势,分析结果相对滞后。这就没有充分使用线上活动海量、高频数据的实时信息优势,进而忽略了客户近期的财务状况和行为特征,而新的网络征信模型可以大批量、实时高速处理当期数据,对当前信息的挖掘更为深入。

其次,传统征信模型一般仅作为传统金融机构发放贷款的参考因素,其在实践中还会大量使用专家经验进行人工审核和人工干预,以至于贷款发放与否很容易受到审核人员的主观因素干扰。这就限制了传统征信模型的应用范围,没法实现100%自动化审核和快速响应机制,因而成本和效率控制没有最优化,而新的网络征信模型往往实现了高度自动化,人力资本主要往技术开发领域集中。

(4)传统征信体系相对保守,而网络征信机制更为灵活。

首先,传统征信模型的主流算法依旧是基于小样本、低维度的传统数理统计模型,所用到的机器学习算法也相对陈旧,除了逻辑回归和支持向量机等传统数据挖掘方法之外,很少用到如复杂网络分析、神经网络算法等人工智能领域普遍使用的新方法。这就导致金融科技企业在面临更为复杂的线上数据时,难以直接借用传统模型研发基于多样化线上线下一体化场景的风控系统,需要不断与时俱进利用AI领域的新近研究成果开发出能够有效处理相关数据的新型网络征信模型。

其次,传统征信模型的开发机构一般都是高度规模化、体制化的成熟企业或事业单位,往往有一整套高度标准化的管理流程和较为强势的垄断地位,市场服务意识相对薄弱,所提供的产品和服务也就相对单一。这就难以充分满足各类互联网企业面临的多样化市场服务需求,也不利于实现高度定制化的专业风控支持,运行效率和客户体验相对较差,而新的网络征信模型开发机构一般都是基于各类线上场景的高科技网络化企业,直面客户的生活痛点,生态营造、商业整合和技术升级能力更强。

表1:传统征信体系与网络大数据征信体系的比较

你的信用打几分 带你认识网络大数据征信
网络大数据征信模型的基本原理

了解了网络征信相对于传统征信的比较优势之后,我们需要对其有更为深刻和科学的认识。网络征信的本质是融合多渠道移动互联化的数据信息,特别是线上采集的各类行为数据,采用先进的机器学习预测模型和集成学习策略,进行客户信用的大数据挖掘。以下我们简单介绍网络大数据征信模型的基本原理,主要步骤归纳如下:

(1)自动导入数千种各类来源的原始数据。

网络征信模型的起点是通过各种接口自动高速地采集和导入数千种各类来源的原始数据。其中,来源于借贷者的数据有客户自发录入的个体基本信息,以及自主获取提交的第三方平台信息等。而直接来自于第三方的数据有来自于电商平台的消费数据、来自于银行卡和第三方支付机构的支付清算数据、来自于即时通讯和网络社交平台的社交数据、来自于外部征信服务机构的第三方征信数据,以及来自于各类线下渠道的消费、支付、借还款等数据。而企业自身积累的数据主要是平台自身各类线上场景的消费、支付、社交和借还款等线上行为数据。

(2)数据关联分析、数据清洗和数据变换。

其次,需要对相关原始数据进行关联性分析,从而完成数据清洗和数据变换。搜集的几千种原始数据并非都能直接用于征信模型,有些数据可能是冗余的,有些非机构化、图像化、音视频化的数据需要提取数量或分类特征,有些数据可能需要进行函数转换或和其它数据进行整合才能够显示出与客户信用相关的行为特征和预测效果。因而需要首先对所有获取的原始数据进行关联性分析,再将无效的原始变量通过函数转换或与其他变量进行整合后再次分析关联特征,进而暂时淘汰无效的数据,保留有效的原始数据或转化后数据。

(3)将原始数据重新整合成更有意义的新变量。

再次,需要在关联分析的基础上将原始数据重新整合成更大的、更有经济学含义的新变量。几千个维度的有效变量不一定都适合同时用于模型的构建,通过变量整合能够有效地降低数据的维度,从而在保证模型计算精度的同时,减轻模型计算的负担,加快计算过程。而且如果能够将具有某类可进行经济解释的所有变量整合成维度较低的单个或数个新变量,能够帮助模型开发人员更好地理解信用风险形成与评估的本质,加快模型的迭代与升级。比如整合后的每一种变量很可能反映借款人的某一单一方面的特征,如涉嫌诈骗、涉嫌洗钱、团伙作案、长期信用、短期信用等特征,并可输入到不同的模型或输出到不同的场景。

(4)在多模型中深度学习相对指标化的数据。

其后,需要构建定制化的子模型和并列模型,利用前沿的机器学习算法对相关整合变量进行深度学习。通常模型的构建并不是单一的,需要根据不同环节风险管理或不同特征群体、不同特征场景等的需要,在一般化模型基础上构建多样化征信子模型或并列模型。这一处理不仅能够降低对数据广度和深度(维度和时长)的要求,还能提高模型预测的精度和实施的运行效率,更好地服务特定目的需要。这也意味着输入到不同的子模型或并列模型中的集合变量和指标是存在较大差异的,要根据相关模型的特性进行定制化。同时,在对相关数据进行分析时,所采用的主流方法除了支持向量和逻辑回归等传统机器学习算法外,更多地会运用到深度学习算法和复杂网络、神经网络的相关技术。

(5)利用模型投票原则形成最终信用分级。

最后,需要利用模型投票原则,筛选最优的几个模型,并集成模型结果,输出最终的信用分数或评级。由于各个子模型和并列模型的结构差异,对同一个个体在同一时期或不同时期的信用评分或评级往往存在一定的差异。这就需要根据模型之间的比较,通过模型投票原则确定最佳的模型或模型组合,从而将各个模型的输出结果进行统一,得到具有连贯性的最优信用评分或评级结果。模型投票原则依据通常考虑预测准确度和过度预测容忍度等多种类型,在机器学习领域通常指的是ROC、AUC等常用指标。为了将分类概率转换为得分或具体评级,一般还需要用到得分转换函数。

图3:互联网大数据征信/风控(拍拍贷魔镜)的基本原理

你的信用打几分 带你认识网络大数据征信
资料来源:拍拍贷

网络大数据征信在网络小贷中的应用

网络大数据征信模型在P2P等网络小额贷款中的应用较为广泛,一直贯穿网络小戴的贷前评估、贷中监测、贷后反馈等各个环节,有效地促进了P2P公司的信用风险管理,也为更好地对低信用群体进行利率定价和确定贷款额度提供了技术支持。其在相关环节的主要作用归纳如下:

(1)在贷前评估环节进行客户画像和贷款授信。

网络征信模型在贷前环节主要用于对借款客户进行行为和信用画像。一方面,网络征信模型会用于反诈骗和反团伙作案的识别,验证相关账户的信息真实性、不良征信记录、违约记录等,从而生成黑名单将不符合信贷政策的人员拒之门外。另一方面,网络征信模型更为主要的用途是对不同的客户计算信用得分和级别,从而进行贷款决策,针对性地确定授信额度和贷款利率。

(2)在贷中监测环节进行实时存量管理和资金预警。

网络征信在贷中环节主要用于实时更新信用评估结果,从而实现存量客户和资金流向的监测管理。一方面,模型实时监测借款客户的借还款情况,获取存量客户在本平台的额度使用和实际信用变化,从而对逾期、违约等行为进行预警。另一方面,模型可根据实时传输的第三方数据分析客户的消费、社交、支付等行为特征,从而对贷款流向和合规性进行预警,保证专款专用。相关数据的更新也意味着客户信用级别的实时修正,从而突破性地将信用风险纳入实时监控范围。

(3)在贷后反馈环节实现逾期催收和模型迭代。

网络征信在贷后反馈环节主要用于检验模型准确性并生成客户分析报告,从而对不同类型客户实现差异化催收,并不断迭代和完善相关模型。一方面,逾期客户的借贷数据直接成为检验信用级别实际违约率的新样本,从而对现有模型的预测效果进行修正,帮助调整模型的参数和变量。另一方面,模型可根据逾期情况对客户进行类别重新划分,从而挖掘规律,针对不同类型客户采取不同催收措施。同时,相关贷后数据也是客户信用评判结果的重要修正变量,从而补充并完善下一轮的贷前评估。

图4:网络大数据征信/风控在网络小贷中的应用环节

你的信用打几分 带你认识网络大数据征信
资料来源:盈灿咨询

5、总结

网络征信是传统征信的补充,它一方面弥补了传统征信覆盖面不足的矛盾,实现了对无传统信用记录客户的征信,并帮助网贷公司解决了次级客户小额信贷的授信问题,从而促进了普惠金融的发展。另一方面,它也促使金融科技公司搜集和分析基于线上行为的各类消费、社交和支付等非结构化的数据,从而推动了大数据分析和人工智能技术在金融领域的应用与发展。

同时,网络征信也促使传统金融机构认识到科技创新和海量数据的价值,原本看似与信用不相关的数据原来也能挖掘出与传统借贷记录数据类似的效果。它也打破了传统征信机构的垄断地位,让传统的征信体系产生了危机意识,从而提升市场服务意识,并开始尝试引入金融科技企业开发的新模型新算法。

综合来看,网络征信模型在传统的征信模型基础之上进行了较大的创新,能够处理复杂结构的海量数据,并引入了新型的深度学习算法和复杂网络、神经网络分析技术,颠覆了传统的基于小样本、低频次历史数据进行统计分析的信用评估理念,能够基于各类线上场景开发出定制化的个性模型。它能够在网络小贷的各个环节中发挥作用,改进了金融科技企业的客户管理、资金管理和模型迭代流程,大幅度提升了互联网金融的经营效率和客户体验。