联邦学习与隐私保护机器学习:在不共享原始数据的情况下训练AI
数据隐私是AI大规模应用的最大结构性障碍之一——医院有大量的患者数据,但不同医院之间、不同国家之间无法随意共享;银行有大量的交易数据,但竞争关系和监管要求限制了数据集成。联邦学习(Federated Learning)提供了一种在数据本地保存的前提下训练AI的方法,是隐私计算(Privacy-Preserving Computation)领域最受关注的技术路线之一。
联邦学习的基本原理
联邦学习的基本流程:中央服务器将初始模型发送给各参与方(客户端,如医院、手机、银行)→各参与方在本地数据上训练,计算模型权重更新(梯度)→各参与方将梯度(而非原始数据)上传至服务器→服务器聚合各方梯度(通常使用FedAvg算法)→更新后的全局模型再次发送给各参与方,循环迭代。
Google于2016年的论文提出了FedAvg(Federated Averaging)算法,是联邦学习的奠基性工作。Google最早在Android键盘(Gboard)的下一词预测和语音识别任务上部署了联邦学习,作为从数百万用户手机上学习个性化模型而不上传用户输入的方案。
差分隐私(Differential Privacy)
仅传输梯度并不能完全保护隐私——有研究表明,在一定条件下可以从梯度逆推出部分原始数据(梯度反演攻击/Gradient Inversion Attack)。差分隐私(DP)在梯度上添加经过数学校准的随机噪声,在统计学意义上保证即使攻击者获得了所有梯度,也无法以高于特定概率推断出任何单个样本的信息。
苹果公司在iOS的键盘建议、emoji使用分析和健康数据统计中大规模应用了本地差分隐私(Local Differential Privacy),是工业界最早大规模部署差分隐私的案例之一。
医疗联邦学习的实践案例
医疗AI是联邦学习最重要的应用场景:NVIDIA FLARE(Federated Learning Application Runtime Environment)提供了在医疗机构间进行联邦学习的开源框架,已在多个跨机构医学影像模型训练项目中使用。COVID-19诊断模型的跨机构联邦训练(涉及全球多家医院)是联邦学习最受引用的医疗案例,在不共享患者CT图像的前提下训练出了比单机构模型更鲁棒的诊断模型。




