隐私计算的实现涉及多种方法,包括联邦学习、多方安全计算(MPC)、差分隐私以及以可信执行环境为代表的基于可信硬件的隐私计算技术。
而今天我们就来重点介绍一下目前非常热门的联邦学习,以及其在信贷风控领域的应用。
1
联邦学习的含义和意义
联邦学习(Federated Learning)是一种分布式机器学习框架,它允许在不暴露个人数据的情况下,多个设备或机器之间共享模型参数进行模型训练。这种方式适用于大量的、敏感的数据不能够集中到一个地方进行训练的场景,比如医疗、金融等领域。
在联邦学习中,通常由一个中心化的服务端(服务器)来控制整个学习过程。该服务端会向多个客户端发送本地模型,每个客户端使用本地数据对模型进行训练,并将训练后的模型参数上传到服务端进行聚合。在每个客户端上运行的本地模型更新算法只需要上传更新的模型参数,而不是原始数据,从而降低了数据泄露的风险。服务端将所有客户端上传的模型参数聚合起来,生成新的模型,并将新模型发送给所有客户端用于下一轮的训练。这个过程会一直重复,直到模型收敛并获得最佳的性能为止。通过这种方式,联邦学习不仅能够保护用户隐私,而且能够提高数据使用效率。
2
联邦学习的分类
联邦学习主要可以分为三种类型:横向联邦学习、纵向联邦学习和联邦迁移学习。
-
横向联邦学习(HFL)是指多个客户端拥有相同的特征空间,但是每个客户端拥有不同的样本数据。这种情况下,可以使用横向联邦学习将各个客户端的数据合并,提高模型的训练效果。
例如,在金融风控领域,不同银行拥有相同的客户特征,但是各有各的客户,它们的的数据分布和数据量可能不同,可以使用横向联邦学习来将这些数据进行合并。这样虽然每家银行本身的数据量有限,但是通过联邦学习实现了样本的共享和拓展,同时每家银行并不需要将自己的原数据分享出去,保护了数据的安全和用户的隐私。
-
纵向联邦学习(VFL)是指多个客户端拥有不同的特征空间,但是每个客户端都有相似的样本数据。这种情况下,可以使用纵向联邦学习来将各个客户端的特征进行合并,提高模型的训练效果。其中的难点,是如何在看不到对方用户的情况下,实现数据的“对齐”,即找到重合的那部分用户。常用的算法是非对称加密的RSA算法和哈希机制的结合。
例如,同一城市的一家银行和一家保险公司,它们的用户群体很大部分是重合的,而银行拥有用户的信贷信息,保险公司拥有用户的保险信息,此时可以通过纵向联邦学习联合建模,从而在模型中使用更多的特征提高精度的同时无需进行数据的披露。
-
联邦迁移学习(FTL)是指在一个客户端上训练的模型可以迁移到另一个客户端上进行继续训练或者应用。这种情况下,可以使用联邦迁移学习来提高模型的使用效率和泛化能力。当涉及到跨不同地区、不同行业、不同数据源的场景时,联邦迁移学习可以发挥重要作用。
例如,在信贷风控领域,假设一个新金融机构想要进行信贷评估和风险控制,但是它的客户数据比较少,难以构建一个精确的模型。这时,可以通过联邦迁移学习来利用其他金融机构的数据,从而提高新金融机构的信贷评估和风险控制能力。
3
联邦学习的不足
尽管联邦学习在许多方面都有很大的优势,但它仍然存在一些不足之处,包括:
-
联邦学习需要强大的计算和通信基础设施:在联邦学习中,由于涉及多个参与方之间的数据交换和模型参数传递,因此需要强大的计算和通信基础设施。这对于一些资源有限的参与方来说可能是一个挑战。
-
在联邦学习中,需要建立参与方之间的信任关系,以确保它们能够按照协议进行数据交换和模型训练。若有恶意参与方引入虚假数据或有害数据会对结果产生很大的影响,同时不同参与方的数据在传输过程中也可能会面临泄漏和攻击的风险。
-
不同参与方可能具有不同的数据分布和数据类型,这可能会导致模型的性能和泛化能力下降。为了克服这一问题,需要采取一些特殊的技术手段,例如联邦迁移学习。
-
与不需加密的分布式机器学习相比,联邦学习的性能也显著下降了。