隐私计算之联邦学习及其在风控中的应用！-中国企业信用公共服务平台

当前位置：首页 >> 信用头条 >> 隐私计算之联邦学习及其在风控中的应用！

隐私计算之联邦学习及其在风控中的应用！

日期：2023-05-06 来源：浏览次数： 1064次

随着智能风控数字化进程的不断深化，风控领域对于模型精度的要求也在不断提高，模型的精度往往依赖于大量的训练样本，样本越多，预测才会越发精准。而各企业、组织、金融机构在采集用户数据样本时通常有一定的局限性，比如银行只能获取到用户的信贷数据，用户的保险数据则在保险公司手中，用户的浏览、点击、购买记录则在电商平台手中。如果银行想要获取更多的用户特征，来更好地评估用户的信用，那么就不得不与其他公司合作。然而，出于用户隐私和商业机密等因素的考量，加之目前数据确权相关的政策法规也暂未完善，数据所有权得不到很好的保护，这些公司并不希望将自己的数据共享给彼此，于是企业间便形成了所谓“数据孤岛”的困境，数据被分散在一个个单独的企业中，无法流通而产生更大的价值。针对这种现象，隐私计算技术以其“数据可用不可见”的特性，提供了一个可行的解决方案。

隐私计算的实现涉及多种方法，包括联邦学习、多方安全计算（MPC）、差分隐私以及以可信执行环境为代表的基于可信硬件的隐私计算技术。

而今天我们就来重点介绍一下目前非常热门的联邦学习，以及其在信贷风控领域的应用。

联邦学习的含义和意义

联邦学习（Federated Learning）是一种分布式机器学习框架，它允许在不暴露个人数据的情况下，多个设备或机器之间共享模型参数进行模型训练。这种方式适用于大量的、敏感的数据不能够集中到一个地方进行训练的场景，比如医疗、金融等领域。

在联邦学习中，通常由一个中心化的服务端（服务器）来控制整个学习过程。该服务端会向多个客户端发送本地模型，每个客户端使用本地数据对模型进行训练，并将训练后的模型参数上传到服务端进行聚合。在每个客户端上运行的本地模型更新算法只需要上传更新的模型参数，而不是原始数据，从而降低了数据泄露的风险。服务端将所有客户端上传的模型参数聚合起来，生成新的模型，并将新模型发送给所有客户端用于下一轮的训练。这个过程会一直重复，直到模型收敛并获得最佳的性能为止。通过这种方式，联邦学习不仅能够保护用户隐私，而且能够提高数据使用效率。

联邦学习的分类

联邦学习主要可以分为三种类型：横向联邦学习、纵向联邦学习和联邦迁移学习。

横向联邦学习（HFL）是指多个客户端拥有相同的特征空间，但是每个客户端拥有不同的样本数据。这种情况下，可以使用横向联邦学习将各个客户端的数据合并，提高模型的训练效果。

例如，在金融风控领域，不同银行拥有相同的客户特征，但是各有各的客户，它们的的数据分布和数据量可能不同，可以使用横向联邦学习来将这些数据进行合并。这样虽然每家银行本身的数据量有限，但是通过联邦学习实现了样本的共享和拓展，同时每家银行并不需要将自己的原数据分享出去，保护了数据的安全和用户的隐私。

纵向联邦学习（VFL）是指多个客户端拥有不同的特征空间，但是每个客户端都有相似的样本数据。这种情况下，可以使用纵向联邦学习来将各个客户端的特征进行合并，提高模型的训练效果。其中的难点，是如何在看不到对方用户的情况下，实现数据的“对齐”，即找到重合的那部分用户。常用的算法是非对称加密的RSA算法和哈希机制的结合。

例如，同一城市的一家银行和一家保险公司，它们的用户群体很大部分是重合的，而银行拥有用户的信贷信息，保险公司拥有用户的保险信息，此时可以通过纵向联邦学习联合建模，从而在模型中使用更多的特征提高精度的同时无需进行数据的披露。

联邦迁移学习（FTL）是指在一个客户端上训练的模型可以迁移到另一个客户端上进行继续训练或者应用。这种情况下，可以使用联邦迁移学习来提高模型的使用效率和泛化能力。当涉及到跨不同地区、不同行业、不同数据源的场景时，联邦迁移学习可以发挥重要作用。

例如，在信贷风控领域，假设一个新金融机构想要进行信贷评估和风险控制，但是它的客户数据比较少，难以构建一个精确的模型。这时，可以通过联邦迁移学习来利用其他金融机构的数据，从而提高新金融机构的信贷评估和风险控制能力。

联邦学习的不足

尽管联邦学习在许多方面都有很大的优势，但它仍然存在一些不足之处，包括：

联邦学习需要强大的计算和通信基础设施：在联邦学习中，由于涉及多个参与方之间的数据交换和模型参数传递，因此需要强大的计算和通信基础设施。这对于一些资源有限的参与方来说可能是一个挑战。

在联邦学习中，需要建立参与方之间的信任关系，以确保它们能够按照协议进行数据交换和模型训练。若有恶意参与方引入虚假数据或有害数据会对结果产生很大的影响，同时不同参与方的数据在传输过程中也可能会面临泄漏和攻击的风险。

不同参与方可能具有不同的数据分布和数据类型，这可能会导致模型的性能和泛化能力下降。为了克服这一问题，需要采取一些特殊的技术手段，例如联邦迁移学习。

与不需加密的分布式机器学习相比，联邦学习的性能也显著下降了。

分享到：