图1
图2
不同账龄提前还款(图1)和逾期率(图2)的趋势 by vintage
2. Discrete Time Survival Model 和 Conditional / Unconditional概率
既然谈到了时间,处理时间的方法可以是连续的,也可以是离散的,现实场景中,信用风险的评估往往是按照账龄,意味着按月的方式离散处理时间更符合实际应用,同时比连续的时间处理方式节约很多计算成本。
另外,预测某个时间点上hazard是否发生,又势必与条件概率conditional rate和生存模型survival model相关联,关联的方式如下,其中公式1的左边为unconditional rate,hx(t)为hazard X在时间T=t上发生的条件概率,而条件指的就是样本在t-1的时候仍然生存着的概率S(t-1),即任何hazard在T<=t-1的区间内都没有发生,这个生存概率是能够通过T<=t-1的所有hazard都不发生的概率循环计算得到的,如公式2。已知S(0)=1,因为信用风险场景中,准入通过时(T=0),认为贷款都是存活的,这一系列事件和概率在时间轴上的计算就是discrete time survival model的要义了。
PS. 通过预测每个账龄上,各个我们感兴趣的可能造成风险损失(如逾期)和收益损失(如提前还款)的事件的概率,结合收益的现金流,聪明的小伙伴们可能已经知道ALV模型做完后的任务了,剧透一下就是每一账龄的收益和损失的净值折现啊!
3. Panel Data 和逻辑回归
通过以上的了解,留下来的一个问题就是怎样估计特定hazard在某一个时间的条件概率h(x)了,这样一个问题分别是通过数据的重构(Panel Data)和每个hazard的逻辑回归建模来解决的。
不同于cross-sectional data每一个样本只有一条记录(包括目标和特征),ALV模型采用panel data的方式,即同一个样本在每个时间T(账龄),分别有一条记录,直到hazard事件发生,或者更远的账龄不可观测(right censored)。target根据section 1里描述的定义,不随时间变化的特征 static variables,都为切片时间能够观察的特征,随时间变化并且能够预测的特征time-varying variables(如账龄,经济变量等),都为历史真实的值。通过这样的架构,每一个感兴趣的hazard,都能够分别建立逻辑回归模型。不同于逻辑回归模型的sigmoid函数,每一个hazard的条件概率需要和其他的hazard联动,公式如下:
Panel Data示例
通过以上建模过程,每一个时间每一个hazard的conditional概率都能够预测,同时unconditional概率也能够计算得到,再有一个好消息,贷款类的产品都有约定的每期还款额度和还款时长,也就是每一个账龄的约定现金流是确定的。如果只考虑逾期和提前还款两个hazards,就能够结合假设额度,通过预测约定现金流、提早还清的现金流、损失的现金流和市场risk free rate利率折现得到NPV。最后的决策当然是NPV大于零,就是可以通过的申请啦,当然还可能考虑需要更多的准备金等,阈值也会随之变化。
关于ALV模型,以及这套估值体系在信用决策中的应用,还有很多可以深入挖掘的,拍拍贷也在做着更多的研究和尝试,有更多有趣的研究结果后,小编再和大家分享,谢谢!