1. 首页
  2. 科技部落

化繁为简丨复杂异构网络带你解密关联图谱

导语

传统的风控模型往往仅采用用户个人维度的多种变量,几乎不评估关联关系对风险的影响。使得逾期用户比较容易通过信息的伪装、更替和仿冒来绕过信用审核,成功借款,在早期极难被发觉。同时,还容易潜伏着一个隐患——团伙作案,其特点在于有组织规划地施行欺诈,几乎同一时间段爆发,破坏力大,所涉范围广泛,且往往数额巨大。

随着大数据时代的到来,基于关联关系的知识图谱慢慢走入了大家的视野,它突破了现有关系型数据库的限制,释放出巨大的数据挖掘潜力。本文就将主要介绍一下,我们如何利用复杂异构网络,对庞大的关联图谱进行挖掘和解析,在金融场景中进行实际的拓展与应用。

关联图谱简介与难点分析

在现实生活中,人与人之间往往具有着复杂且多样的关联关系。而宏观环境下,更多的时候我们是通过他们在客观世界中的某种交互,发现两人的关联关系的,比如,两人微博互相关注、共用同一台电子设备等。如果将所有的人抽象成一个端点,而连接的媒介成为节点(如电话号码、imei等),那么端点与端点、端点与节点、节点与节点之间的关系便抽象为一条边,而所有的端点、节点和边则构成了一整幅关联图谱,也就是我们常说的社交网络。

化繁为简丨复杂异构网络带你解密关联图谱

这种图谱是相互连接用户及其关系的一种结构化表达,是最接近真实世界的数据组织结构。通过关联图谱,我们可以将所有的数据连接起来,即时地传达信息,易于揭示复杂的关系模式。然而它却难以直接分析,进行应用。通常,我们关注的是端点的属性(比如用户是否逾期),但一个端点与多个节点关联(一个人可以有多个手机号,使用多个imei登录等),每一种关联都带来不同程度的影响,而一个节点又与多个端点相连(一个imei同时被多人登录),从而富含多元而复杂的信息。

化繁为简丨复杂异构网络带你解密关联图谱

如上图所示,这是一个指数级膨胀并多元传播的信息链。在实际应用中,面对亿万级别的数据、几十种关联关系和非结构化的数据形式,一般就意味着分析非常依赖人工,工程计算量庞大且信息利用率低下。

复杂异构网络:端到端的解决方式

基于上述的问题,我们采用了复杂异构网络,用高度定制化的结构将不同来源的非结构化数据进行融合,与用户的个人维度信息相互补充,以用户逾期为target,完成了端到端的训练过程。其具体结构如下图:

化繁为简丨复杂异构网络带你解密关联图谱

在第一阶段网络中,我们收集节点维度的可用信息和专家变量,通过多层神经网络(以下我们称为子网络A),将每个节点上的信息压缩为一个或少量几个值。对于同一个用户,不同种类的节点信息通过不同的子网络A,而相同种类的多个节点通过相同的子网络A。这样,我们就实现了动态可缩放输入,可以输入的信息模式多样。

在第二阶段中,我们将每种关系子网络得出的多个值,分别结合其与该用户的亲密程度,通过多层神经网络(以下我们称为子网络B),聚合为该种关系对用户的逾期影响。

最后,我们将不同关联关系所得进行并联,通过第三阶段的多层神经网络(以下我们称为子网络C),得到该用户的逾期概率。

整个网络可完全自定义,适应多种场景,端到端的训练模式最大程度上保留了信息的完整性,避免了过多人为主观的影响。

上线与应用

现有的网络结构虽然极大的提高了信息的利用率,实现了自动化训练。但在实际应用过程当中,面对百万级用户和亿万级的关系数据,其庞大而复杂的特点,使我们不得不面对内存和计算多重压力。如何在线上快速完成对多个用户的打分,成了我们下一步要考虑的主要问题。

由于在应用场景中,我们一般已经保有了庞大的关联图谱,需求是对新入用户进行预测。因此,异构网络的结构特性使得我们在完成训练之后,可以将第一阶段网络拆分出来,进行线下的计算:

化繁为简丨复杂异构网络带你解密关联图谱

在线下,我们可以建立并维护一个节点库,将每个节点所连接到的信息通过子网络A进行压缩和打分。而在线上,我们仅将对于节点的所打分数传递给用户。对于我们要预测的新用户,只需要进行关联关系的检索和匹配,将匹配到的节点所得分数直接代入计算,通过子网络B和C,就可以得到该用户的逾期预测分数。这样极大地俭省了计算和线上内存,实现了线上多个用户并发,在更好的查找逾期用户的同时,无须担心延误线上申请流程,影响用户体验。

结语
我们通过复杂异构网络,给不同的连通边赋予不同权重,来全面的考量单个用户的多种关联关系,并利用动态的输入结构,可以自适应的处理每个用户不定连接方式、不定连接个数的连接关系。该方法实现了对用户关联关系的进一步挖掘,据此对用户人群实时的进行更科学的有监督学习和划分。同时,也可以节约线上的资源,将节点维度的变量进行合理压缩。当然,这种方法还有着很大的优化空间。目前为止,复杂异构网络仍然需要数个小时的训练时间来完成数十万样本一个epoch的训练,有待后续进一步的探索和优化。

感谢在每一环节给予过帮助和支持的小伙伴,谢谢大家。