如何解决人工智能应用中数据隐私保护带来的挑战？-电子发烧友网

近日，在百大人物峰会上，创新工场创始人李开复谈及数据隐私保护和监管问题时，表示：“人们不应该只将人工智能带来的隐私问题视为一个监管问题，可尝试用‘以子之矛攻己之盾’——用更好的威廉希尔官方网站解决威廉希尔官方网站带来的挑战，例如同态加密、联邦学习等威廉希尔官方网站。”

那么最近备受关注、被越来越多提及的联邦学习是什么？如何解决人工智能应用中数据隐私保护带来的挑战？

▌“联邦学习”到底是什么？能解决什么问题？

在回答 “联邦学习” 是什么之前，我们需要了解为什么会有这样的威廉希尔官方网站出现，它的出现是为了解决什么问题。

近年来，随着人工智能威廉希尔官方网站的发展和更广泛的应用，数据隐私保护也被越来越多地关注，欧盟出台了首个关于数据隐私保护的法案《通用数据保护条例》（General Data Protection Regulation, GDPR），明确了对数据隐私保护的若干规定，中国在 2017 年起实施的《中华人民共和国网络安全法》和《中华人民共和国民法总则》中也指出 “网络运营者不得泄露、篡改、毁坏其收集的个人信息，并且与第三方进行数据交易时需确保拟定的合同明确约定拟交易数据的范围和数据保护义务。” 这意味着对于用户数据的收集必须公开、透明，企业、机构之间在没有用户授权的情况下数据不能交换。

这给人工智能应用给机器学习带来的挑战是：如果机构之间的数据无法互通，一家企业一家机构数据量有限，或者是少数巨头公司垄断大量数据，而小公司很难获得数据，形成大大小小的“数据孤岛”。在这种没有权限获得足够多的用户数据的情况下，各个公司尤其是小公司，如何建模？

在这种情况下，“联邦学习”的概念应运而生。所谓 “联邦学习”，首先是一个“联邦”。不同于企业之前的“各自为政”，拥有独立的数据和独立的模型，联邦学习通过将企业、机构纳入“一个国家、一个联邦政府” 之下，将不同的企业看作是这个国家里的 “州”，彼此又保持一定的独立自主，在数据不共享的情况下共同建模，提升模型效果。所以“联邦学习” 实际上是一种加密的分布式机器学习威廉希尔官方网站，参与各方可以在不披露底层数据和底层数据的加密（混淆）形态的前提下共建模型。

Google 公司率先提出了基于个人终端设备的“横向联邦学习”（Horizontal Federated Learning），其核心是，手机在本地进行模型训练，然后仅将模型更新的部分加密上传到云端，并与其他用户的进行整合。目前该方法已在 Google 输入法中进行实验。一些研究者也提出了 CryptoDL 深度学习框架、可扩展的加密深度方法、针对于逻辑回归方法的隐私保护等。但是，它们或只能针对于特定模型，或无法处理不同分布数据，均存在一定的弊端。

在国内，联邦威廉希尔官方网站的研究由微众银行首席人工智能官（CAIO）杨强教授带领微众银行 AI 团队主导，并且首次提出了基于 “联邦学习” 的系统性的通用解决方案，强调在任何数据分布、任何实体上，均可以进行协同建模学习，解决个人 (to C) 和公司间 (to B) 联合建模的问题，开启了将联邦学习威廉希尔官方网站进行商用，建立联邦行业生态的探索。

▌如何在保护数据隐私前提下打破数据孤岛？

因为孤岛数据具有不同的分布特点，所以在联邦学习的威廉希尔官方网站方案中，也大致分为：横向联邦学习、纵向联邦学习、联邦迁移学习三种方案。

考虑有多个数据拥有方，每个数据拥有方各自所持有的数据集 Di 可以用一个矩阵来表示。矩阵的每一行代表一个用户，每一列代表一种用户特征。同时，某些数据集可能还包含标签数据。如果要对用户行为建立预测模型，就必须要有标签数据。可以把用户特征定义为 X，把标签特征定义为 Y。

比如，在金融领域，用户的信用是需要被预测的标签 Y；在营销领域，标签是用户的购买愿望 Y；在教育领域，则是学生掌握知识的程度等。用户特征 X 加标签 Y 构成了完整的训练数据（X，Y）。但是，在现实中，往往会遇到这样的情况：各个数据集的用户不完全相同，或用户特征不完全相同。具体而言，以包含两个数据拥有方的联邦学习为例，数据分布可以分为以下三种情况：两个数据集的用户特征（X1,X2,…）重叠部分较大，而用户 (U1,U2…) 重叠部分较小；两个数据集的用户 (U1,U2…) 重叠部分较大，而用户特征（X1,X2,…）重叠部分较小；两个数据集的用户 (U1,U2…) 与用户特征重叠（X1,X2,…）部分都比较小。

可以看出，联邦迁移学习解决了不同样本（数据集）、不同特征维度之前联合建模的问题，第一次让不同领域的企业之间在保护彼此数据隐私的前提下实现跨领域创造价值。例如，银行拥有用户购买能力的特征，社交平台拥有用户个人偏好特征，而电商平台则拥有产品特点的特征，传统的机器学习模型无法直接在异构数据上进行学习，联邦学习却能在保护三方数据隐私的基础上进行联合建模，从而打破数据壁垒，构建跨领域合作。

为了更加清楚方案背后的逻辑，以包含两个数据拥有方（即企业 A 和 B）的场景为例来介绍联邦学习的系统构架，这个架构可以拓展延伸到包含多个数据拥有方的场景。

假设企业 A 和 B 想联合训练一个机器学习模型，它们的业务系统分别拥有各自用户的相关数据。此外，企业 B 还拥有模型需要预测的标签数据。出于数据隐私和安全考虑，A 和 B 无法直接进行数据交换。此时，可使用联邦学习系统建立模型，系统构架由两部分构成，如图 a 所示。

图：联邦学习系统构架

第一部分：加密样本对齐。由于两家企业的用户群体并非完全重合，系统利用基于加密的用户样本对齐威廉希尔官方网站，在 A 和 B 不公开各自数据的前提下确认双方的共有用户，并且不暴露不互相重叠的用户。以便联合这些用户的特征进行建模。

第二部分：加密模型训练。在确定共有用户群体后，就可以利用这些数据训练机器学习模型。为了保证训练过程中数据的保密性，需要借助第三方协作者 C 进行加密训练。以线性回归模型为例，训练过程可分为以下 4 步（如图 b 所示）：第①步：协作者 C 把公钥分发给 A 和 B，用以对训练过程中需要交换的数据进行加密；第②步：A 和 B 之间以加密形式交互用于计算梯度的中间结果；第③步：A 和 B 分别基于加密的梯度值进行计算，同时 B 根据其标签数据计算损失，并把这些结果汇总给 C。C 通过汇总结果计算总梯度并将其解密。第④步：C 将解密后的梯度分别回传给 A 和 B；A 和 B 根据梯度更新各自模型的参数。

迭代上述步骤直至损失函数收敛，这样就完成了整个训练过程。在样本对齐及模型训练过程中，A 和 B 各自的数据均保留在本地，且训练中的数据交互也不会导致数据隐私泄露。因此，双方在联邦学习的帮助下得以实现合作训练模型。

第三部分：效果激励。联邦学习的一大特点就是它解决了为什么不同机构要加入联邦共同建模的问题，即建立模型以后模型的效果会在实际应用中表现出来，并记录在永久数据记录机制（如区块链）上。提供的数据多的机构会看到模型的效果也更好，这体现在对自己机构的贡献和对他人的贡献。这些模型对他人效果在联邦机制上以分给各个机构反馈，并继续激励更多机构加入这一数据联邦。以上三个步骤的实施，既考虑了在多个机构间共同建模的隐私保护和效果，又考虑了如何奖励贡献数据多的机构，以一个共识机制来实现。所以，联邦学习是一个 “闭环” 的学习机制。

由此我们也可以看出联邦学习的几个显著特征：

一、各方数据都保留在本地，不泄露隐私也不违反法规；

二、多个参与者联合数据建立虚拟的共有模型，实现各自的使用目的、共同获益；

三、在联邦学习的体系下，各个参与者的身份和地位相同；

四、联邦学习的建模效果和传统深度学习算法的建模效果相差不大；

五、“联邦”就是数据联盟，不同的联邦有着不同的运算框架，服务于不同的运算目的。如金融行业和医疗行业就会形成不同的联盟。

▌联邦学习目前进展

说了那么多，联邦学习目前到底有哪些威廉希尔官方网站进展呢？

最新消息显示，Google 推出了首个产品级的联邦学习系统并发布论文 “Towards Federated Learning at Scale：System Design”，介绍了联邦学习系统的设计理念和现存挑战并提出了自己的解决方案。国内方面，微众 AI 团队对外开源了自研的 “联邦学习 FATE（Federated AI Technology Enabler)” 学习框架，目前在信贷风控、客户权益定价、监管科技等领域已经推出了相应的商用方案。

在系统框架之外，围绕联邦学习的威廉希尔官方网站标准也在陆续推进中。今年 2 月份，IEEE P3652.1（联邦学习基础架构与应用）标准工作组第一次会议在深圳召开，作为国际上首个针对人工智能协同威廉希尔官方网站框架订立的标准，不仅明确了联邦学习在数据合规、william hill官网等方面的重要意义，还为立法机构在涉及隐私保护的问题时提供威廉希尔官方网站参考。

总而言之，无论是威廉希尔官方网站理论的探索还是统一标准的制定，在全球范围内对联邦学习的落地探索都会继续，联邦学习作为一个新兴的人工智能基础威廉希尔官方网站，还有很长的路要走。我们也有理由期待，随着联邦学习理论、应用体系的逐渐丰富，隐私保护问题所带来的威廉希尔官方网站挑战将得到有效解决。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

数据

数据

+关注

关注
8

文章
7017

浏览量
89008
人工智能

人工智能

+关注

关注
1791

文章
47258

浏览量
238417
迁移学习

迁移学习

+关注

关注
0

文章
74

浏览量
5561

原文标题：李开复口中的“联邦学习” 到底是什么？| 威廉希尔官方网站头条

文章出处：【微信号：rgznai100，微信公众号：rgznai100】欢迎添加关注！文章转载请注明出处。

《AI for Science：人工智能驱动科学创新》第一章人工智能驱动的科学创新学习心得

，还促进了新理论、新威廉希尔官方网站的诞生。 3. 挑战与机遇并存尽管人工智能为科学创新带来了巨大潜力，但第一章也诚实地讨论了伴随而来的挑战。数据

发表于 10-14 09:12

《AI for Science：人工智能驱动科学创新》第6章人AI与能源科学读后感

了电力的实时平衡和优化，有效降低了电网的运行成本和故障率。此外，书中还讨论了人工智能在能源科学研究中的挑战和机遇。这些挑战包括数据质量、算

发表于 10-14 09:27

嵌入式和人工智能究竟是什么关系?

理这些数据，提高系统的响应速度和准确性。此外，嵌入式系统还可以为人工智能提供安全和隐私保护，避免数据泄露和攻击。总之，嵌入式系统和

发表于 11-14 16:39

人工智能是什么?

海量的数据中通过不断优化的算法来组建适合的数据群组。单从这一点就可以看出，数据的大量积累也是需要经过长时间才能做到的，这也是为什么人工智能领

发表于 09-16 15:40

人工智能--失业将是人类面临的最大挑战

的失业人员再就业；在这个生态中，我们知道社会里企业的形态、竞争机制甚至社会保险制度会面临什么样的选择，又该如何做才能让社会经济良性运行。　　在未来10年，杰瑞·卡普兰认为人类要应对人工智能带来的最重大挑战

发表于 06-27 11:06

人工智能会把人类从劳动中解放出来吗

领域，人工终究会被机器所超越。　　人工智能会把人从简单的劳力劳动中解放出来，大数据就是第一步。数据量的激增使得企业可以通过

发表于 09-15 14:09

数据对人工智能发展的重要性

。APP时代，我们常说中国创业成本达到历史新低，很不幸，人工智能加大数据，创业成本将会达到历史新高。第三是数据量需要非常多。数据收集是一个逐渐的过程。有些

发表于 10-09 15:26

从入门到研究，人工智能领域最值得一读的10本资料（附下载）

如今的使用案例。7.Artificial Intelligence, Robotics, Privacy and Data Protection（人工智能、机器人、隐私和数据保护）这个

发表于 10-12 11:38

人工智能就业前景

据相关招聘机构数据显示，2018年AI领域仍然是大部分资深威廉希尔官方网站人才转岗的首选目标，在人才最紧缺的前十大职位中，时下最火的大数据、人工智能、算法类岗位占据半壁江山。据调查指出，2017年

发表于 03-29 15:46

人工智能医生未来或上线，人工智能医疗市场规模持续增长

。　　——提高癌症筛查效率。早诊早治是提高癌症治愈率的关键。2018年12月，中山大学肿瘤防治中心牵头开展上消化道肿瘤人工智能诊疗决策系统的研发及推广应用项目，根据该系统试用初期数据分析，临床试用中恶性肿瘤识别

发表于 02-24 09:29

人工智能：超越炒作

。对于人工智能用例在当前物联网环境中变为现实，必须满足三个条件：非常大的真实数据集具有重要处理能力的硬件架构和环境开发新的强大算法和人工神经网络（ANN）以充分利用上述内容很明显，后两

发表于 05-29 10:46

基于人工智能的传感器数据协同作用

作者：Kaustubh Gandhi，Bosch Sensortec软件产品经理人工智能（AI）目前正在为社会的方方面面带来革新。比如，通过结合数据挖掘和深度学习的优势，如今可以利用人工智能

发表于 07-25 06:20

【开源硬件系列04期】AI人工智能威廉希尔官方网站带给EDA的机遇和挑战（文中含回放+课件）

for EDA开源数据集、建模与优化等威廉希尔官方网站，并总结人工智能威廉希尔官方网站在EDA中遇到的困难和挑战，展望其未来发展方向。本期重点：① EDA设计流程简介②

发表于 01-17 16:56

人工智能在国际传播中的数据隐私保护

近年来，人工智能威廉希尔官方网站越来越多地被用于国际传播，进而对国际舆论和国际交往构成影响。这种影响很大程度上是通过对大数据的深度挖掘与应用实现的，其中牵涉的一个重要方面即个人数据隐私如何界定和

发表于 07-12 10:45 •681次阅读

兼顾人工智能应用和隐私保护是新的趋势吗

人工智能应用存在隐私泄露的伦理风险。人工智能应用需要以海量的个人信息数据作支撑。

发表于 07-14 10:07 •417次阅读

搜索历史

如何解决人工智能应用中数据隐私保护带来的挑战？

评论