公开机器学习模型代码可能会有哪些风险？-电子发烧友网

作为个人开发者，应不应该将自己的项目或模型、数据等进行开源？公开这些数据有哪些风险？本文作者是斯坦福大学博士，长期从事开源机器学习研究，经常接触和处理敏感数据，他结合自己的经验，为这个问题提供了一些建议。

公开机器学习模型代码可能会有哪些风险？

OpenAI 最近因为创造了多项机器学习新任务的最优性能记录，但却不开放源代码而遭到越来越多的指摘。OpenAI发推表示，“由于担心这些威廉希尔官方网站可能被用做恶意目的，不会放出训练后的模型代码。“

对OpenAI这个决定的批评之声不少，比如这样会对其他团队重现研究这些研究结果造成阻碍，而研究结果的可重现性是确保研究真实的基础。而且，这样做也可能导致媒体对人工智能威廉希尔官方网站产生一种由于未知而生的恐惧。

上面这段Twitter引起了我的注意。Anima Anandkumar在弥合机器学习的研究和实际应用之间的差距方面拥有丰富的经验。我们是亚马逊AWS的同事，最近还在一起讨论了如何将机器学习威廉希尔官方网站从博士实验室推向市场的问题。

Stephen Merity对社交媒体的回应进行了总结，他表示，机器学习社区在这方面的经验其实不多：

OpenAI不公开模型源代码是对是错？这事各位可以自行判断。不过在我看来，OpenAI在两个方面做得不够好，应该就是否可以检测到虚假内容进行调查，并以多种语言发布模型，以对抗对英语产生的单语种偏见。

对于个人机器学习项目而言，下面给出一些关于是否应该公开发布模型或数据集的决策时的一些常见问题：

在开源我的模型之前是否应该三思？

是的。如果你的模型是基于私有数据构建的，则可以对其进行逆向工程以提取出这些数据。

如果我的模型100％来自公共数据，那我是否还要考虑将模型开源？

是的。如果要在新的语言环境重新发布数据，已发布的数据可能会变成敏感数据，而且，聚合后的数据（包括机器学习模型）可能比分散的各个数据点更加敏感。你需要考虑：重新构建数据或数据模型会产生哪些影响，要不要由我自己或我所在的组织公开发布？

即使单个数据点并非敏感数据，聚合数据被视为敏感也是很常见的情况。这是许多军事组织的标准做法：当他们汇总来自一组来源的数据时，他们会根据其敏感程度重新评估该汇总信息。聚合通常是统计学或无监督机器学习的结果，但是基于该数据构建的监督模型同样适用。

所以，你应该经常自问：我的模型中的聚合数据是否比单个数据点更为敏感？

我应该如何评估开源风险？

在安全性方面考虑，可以将每个策略视为“可被攻破的”。风险防范的基本目标是使攻破某些安全措施的成本高于被保护数据的价值。

所以要考虑的问题是，从你的研究论文中复制模型的成本，是否值得为那些想要出于负面目的使用这些威廉希尔官方网站的人付出这样的努力？应该要明确这一点。这是决定是否将模型开源的一个重要因素。

我最近与Facebook进行了长时间的会谈，讨论的是出任一个职位，专门负责发现假新闻。从一个行内人的角度来看，我最想知道的是这样一件事：我能否以编程的方式成功检测这种模型输出，以便对抗假新闻？

我认为在Facebook上打击假新闻是任何人都可以做的最重要的事情之一，来自OpenAI的这项研究将会对此有所帮助。而且，如果能够创建一个可以识别生成内容的模型池，那么假新闻可能会更难以蒙混通过自动检测系统。

如果你能够定量地证明，对项目数据的恶意使用可以进行更容易/更难的打击，这也将是你做出是否开源的决策过程中的另一个重要因素。

这算是机器学习中的新问题吗？

其实不算是，你可以从过去的经验中学到很多东西。

如果你面临类似的困境，请寻找具有深度知识的人来讨论受影响最大的社区（最好是来自该社区内部的人士），以及过去遇到类似的机器学习问题相关问题的人。

我是否应该平衡机器学习的负面应用和正面应用？

是的。发布具有积极应用意义的模型，很容易对世界产生积极影响。而限制具有许多负面应用领域的模型的发布，很难对世界产生积极影响。

这其实是OpenAI的另一个失败之处：缺乏多样性。OpenAI比任何其他研究团队都更多地发布了仅适用于英语模型和研究成果。从全球来看，英语每天仅占全世界对话的5％。在句子中的单词顺序、标准化拼写和“单词”作为机器学习功能单元上，英语是一个异类。

OpenAI的研究依赖于以下三个方面：单词顺序，单词特征，拼写一致性。这些研究能够适用于世界上大多数语言吗？我们不知道，因为没有测试。OpenAI的研究确实表明，我们需要担心这种类型的英语生成内容，但并没有表明，今天的假新闻的流传，更有可能通过除英语之外的其他100多种语言进行。

如果你不想进入假新闻等应用程序的灰色区域，那么可以选择一个本质上更具影响力的研究领域，例如低资源语言中与健康相关的文本的语言模型。

我需要在多大程度上考虑项目应用实例的敏感性？

当我为AWS的命名实体解析服务开发产品时，必须考虑是否要将街道级地址识别为显式字段，并可能将坐标映射到相应地址。我们认为这本身就是敏感信息，不应该在一般解决方案中进行产品化。

在任何研究项目中都要考虑这一点：是否能够隐含或明确地识别出模型中的敏感信息？

只是因为其他人都开源了自己的模型，因此我也应该开源吗？

当然不是，你应该对自己项目的影响力保持一份怀疑。无论你是否赞同OpenAI的决定，都应该做出明智的决定，而不是盲目跟随他人。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

人工智能

人工智能

+关注

关注
1791

文章
47274

浏览量
238474
开源

开源

+关注

关注
3

文章
3348

浏览量
42499
机器学习

机器学习

+关注

关注
66

文章
8418

浏览量
132629

原文标题：斯坦福博士：个人开发者要不要开源项目模型和代码？

文章出处：【微信号：AI_era，微信公众号：新智元】欢迎添加关注！文章转载请注明出处。

《具身智能机器人系统》第7-9章阅读心得之具身智能机器人与大模型

医疗领域，手术辅助机器人需要毫米级的精确控制，书中有介绍基于视觉伺服的实时控制算法，以及如何利用大模型优化手术路径规划。工业场景中，协作机器人面临的主要挑战是快速适应新工艺流程。具身智能通过在线

发表于 12-24 15:03

深度学习模型的鲁棒性优化

。异常值和噪声可能会误导模型的训练，导致模型在面对新数据时表现不佳。数据标准化/归一化：将数据转换到同一尺度上，有助于模型更好地学习数据

发表于 11-11 10:25 •254次阅读

AI大模型与深度学习的关系

AI大模型与深度学习之间存在着密不可分的关系，它们互为促进，相辅相成。以下是对两者关系的介绍：一、深度学习是AI大模型的基础威廉希尔官方网站支撑：深度学习

发表于 10-23 15:25 •727次阅读

AI大模型与传统机器学习的区别

AI大模型与传统机器学习在多个方面存在显著的区别。以下是对这些区别的介绍：一、模型规模与复杂度 AI大模型：通常包含数十亿甚至数万亿的参

发表于 10-23 15:01 •624次阅读

【《时间序列与机器学习》阅读体验】+ 时间序列的信息提取

之前对《时间序列与机器学习》一书进行了整体浏览，并且非常轻松愉快的完成了第一章的学习，今天开始学习第二章“时间序列的信息提取”。先粗略的翻阅第二章，内容复杂，充斥了大量的定义、推导计

发表于 08-14 18:00

【「时间序列与机器学习」阅读体验】+ 简单建议

这本书以其系统性的框架和深入浅出的讲解，为读者绘制了一幅时间序列分析与机器学习融合应用的宏伟蓝图。作者不仅扎实地构建了时间序列分析的基础知识，更巧妙地展示了机器学习如何在这一领域发挥巨

发表于 08-12 11:21

【《大语言模型应用指南》阅读体验】+ 基础知识学习

一些局限性。例如，模型可能无法完全理解文本中的深层含义和语境信息；同时，由于训练数据可能存在偏差和噪声，生成的答案也可能存在不准确或误导性的情况。总结以下，大语言

发表于 08-02 11:03

【《大语言模型应用指南》阅读体验】+ 俯瞰全书

上周收到《大语言模型应用指南》一书，非常高兴，但工作项目繁忙，今天才品鉴体验，感谢作者编写了一部内容丰富、理论应用相结合、印刷精美的著作，也感谢电子发烧友论坛提供了一个让我了解大语言模型和机器

发表于 07-21 13:35

pycharm如何训练机器学习模型

PyCharm是一个流行的Python集成开发环境（IDE），它提供了丰富的功能，包括代码编辑、调试、测试等。在本文中，我们将介绍如何在PyCharm中训练机器学习模型。一、安装Py

发表于 07-11 10:14 •807次阅读

Al大模型机器人

丰富的知识储备。它们可以涵盖各种领域的知识，并能够回答相关问题。灵活性与通用性: AI大模型机器人具有很强的灵活性和通用性，能够处理各种类型的任务和问题。持续学习和改进: 这些模型可以

发表于 07-05 08:52

深度学习中的模型权重

在深度学习这一充满无限可能性的领域中，模型权重（Weights）作为其核心组成部分，扮演着至关重要的角色。它们不仅是模型学习的基石，更是

发表于 07-04 11:49 •1291次阅读

基础模型能为机器人带来怎样的可能性？

机器人是一种拥有无尽可能性的威廉希尔官方网站，尤其是当搭配了智能威廉希尔官方网站时。近段时间创造了许多变革性应用的大模型有望成为机器人的智慧大脑，帮助机器人感知和理

发表于 01-26 14:47 •232次阅读

CYT2BL ADC超频使用会有风险吗？

依据datasheet 的说明，该芯片最大支持26.67Mhz 的时钟，但是我们项目中，配置成了40MHZ,未发生异常，请问会有什么风险点嘛？

发表于 01-22 07:50

如何从零开始构建深度学习项目？（如何启动一个深度学习项目）

性能重大提升的背后往往是模型设计的改变。不过有些时候对模型进行微调也可以提升机器学习的性能。最终的判断可能会取决于你对相应任务的基准测试结果

发表于 01-11 10:49 •306次阅读

如何使用TensorFlow构建机器学习模型

在这篇文章中，我将逐步讲解如何使用 TensorFlow 创建一个简单的机器学习模型。

发表于 01-08 09:25 •989次阅读

搜索历史

公开机器学习模型代码可能会有哪些风险？

评论

《具身智能机器人系统》第7-9章阅读心得之具身智能机器人与大模型

深度学习模型的鲁棒性优化

AI大模型与深度学习的关系

AI大模型与传统机器学习的区别

【《时间序列与机器学习》阅读体验】+ 时间序列的信息提取

【「时间序列与机器学习」阅读体验】+ 简单建议

【《大语言模型应用指南》阅读体验】+ 基础知识学习

【《大语言模型应用指南》阅读体验】+ 俯瞰全书

pycharm如何训练机器学习模型

Al大模型机器人

深度学习中的模型权重

基础模型能为机器人带来怎样的可能性？

CYT2BL ADC超频使用会有风险吗？

如何从零开始构建深度学习项目？（如何启动一个深度学习项目）

如何使用TensorFlow构建机器学习模型