0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看威廉希尔官方网站 视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

人工智能最重大的风险:数据出错

8gVR_D1Net08 来源:未知 作者:邓佳佳 2018-04-04 10:49 次阅读

糟糕的数据对于人工智能来说是个大问题,随着企业越来越接受人工智能,风险只会越来越高。人工智能和机器学习有望彻底改变很多行业,但它们也带来了重大风险——鉴于该威廉希尔官方网站 现在才刚刚开始得到大力实施,其中有很多风险尚待发现。

已经有一些公共的,令人尴尬的人工智能变坏的例子。微软的Tay由于遭到推特钓鱼(Twitter troll)的破坏,在一天之内从无辜的聊天机器人变成了一个疯狂的种族主义者。两年前,谷歌不得不审查“大猩猩”和“黑猩猩”这样的关键词的图片搜索,因为它返回的结果是非洲裔美国人的照片——而这个问题仍未完全解决。

随着企业越来越接受人工智能,风险只会越来越大。

西雅图一家将人工智能应用于医疗保健数据的公司KenSci的人工智能的负责人Ankur Teredesai说:“我们一觉醒来就冒汗。到最后,我们谈论真实的病人,真实的生活。”

KenSci的人工智能平台向医生和保险公司提供医疗保健建议。如果医疗记录或用于创建预测模型的训练集中存在错误,后果可能是致命的,这种情况揭示了人工智能实施的关键风险因素:数据实践的质量。

人工智能的护栏坏掉了

KenSci处理来自世界各地的合作伙伴组织的数百万患者记录。这些信息是以不同的语言,标准和格式,并按照不同的分类方案组织起来的。

为了解决这个问题,KenSci使用本土和第三方工具,它还取决于合作伙伴的医疗保健机构。

他说:“医疗保健系统投入了大量的精力来制定协议、确保合规性、确保他们的数据资产尽可能的干净。五年或十年前,这是个大问题,今天,由于西方世界、亚洲和澳大利亚大部分地区数字化的成熟,编码显着减少,世界上很多地方已经转向标准化。”

为了减轻对人工智能的依赖所产生的风险,KenSci有三个额外的安全层。首先有防御错误的前线:提供护理的医生。

Teredesai说:“我们不相信人工智能。我们相信辅助智能,我们把如何行动的决策交给医生这样训练有素的专家来制定。”

他说,KenSci平台只是提出建议,而在大多数情况下,这些建议甚至不适用于治疗。他说:“我们的大部分工作都集中在成本预测、工作流分析和工作流程优化上,很多时候,我们离临床决策只有几步之遥。”

该公司自己的医疗专家通过评估外部传来的数据以及数据使用方式上的限制来提供第二道防线。例如,来自男性患者治疗结果的数据可能不适用于女性。

他说:“我们有一个严格的程序来确保模型不被评分——如果底层的数据不正确,不足以使该模型得到评分——错进错出。”

最后,有外部的同行评审对KenSci模型的输出结果,以及由平台做出决策的因素进行评审。

他说:“我们的研究人员在人工智能运动的公平性和透明度方面处于最前沿。我们相信公开出刊物,相信模型正在对分发的参数做决策,以便专家不仅可以评估模型的输出结果,还可以评估纳入该评分体系的因素和分数。为了确保KenSci平台是开放的、透明的、接受调查的,人们花了很多心思。”

KenSci的方法显示了公司在进一步依赖人工智能时需要实施的各种流程。

一切关乎数据

以人工智能为基础的网络安全初创公司Jask的首席威廉希尔官方网站 官JJ Guy说,人工智能的90%是数据物流。他说,所有主要的人工智能进展都受到数据集进步的推动。

他说:“算法简单而有趣,因为它们是干净、简单和离散的问题。收集、分类和标记用于训练算法的数据集是一份苦差事——尤其是足以反映真实世界的数据集。”

他说,以应用提供逐向驾驶路线导航的程序为例。它们已经存在了几十年,但最近才变得好用——因为有了更好的数据。

他说:“谷歌资助了一个车队,该车队行驶在美国的每一条道路上并对道路进行数字化绘图。车队将这些数据与卫星图像和其它数据源结合起来,然后聘请一批人类监护员手动改善表示世界各地建筑、交叉口和交通信号灯的数据。随着人工智能应用于更广泛的问题,成功的方法将会就是那些认识到成功并不是来自算法而是来自数据整理(data wrangling)的方法。”

然而,公司在开始他们的人工智能项目之前往往没有意识到良好的数据的重要性。

Forrester Research的分析师Michele Goetz表示:“大多数组织并不认为这是一个问题。当被问及人工智能预计会带来什么挑战时,拥有用于训练人工智能的受到悉心监护的数据集居然最不受重视。”

Forrester去年进行的一项调查显示,只有17%的受访者表示最大的挑战在于没有“受到悉心监护的数据来训练人工智能。”

她说:“但是,当公司开始进行人工智能项目时,这是从概念验证和试点项目转向生产系统的最大难题和障碍之一。”

451 Research的创始人兼研究副总裁Nick Patience说,最大的问题之一不是没有足够的数据,而是数据被锁藏并难以访问。

他说:“如果你的数据完全孤立,机器学习就不会奏效。例如,如果你的财务数据在甲骨文(Oracle)中,人力资源(HR)数据在Workday中,合同在Documentum存储库中,并且你没有做任何事情来尝试创建这些孤岛之间的连接。”

他说,公司还没有准备好接受人工智能。

他说:“你不妨在每个孤岛中使用标准的分析工具。”

数据问题可能会干扰人工智能

即使你有数据,你仍然会遇到质量问题,以及隐藏在训练集中的偏见。

最近的几项研究表明,用于训练图像识别的人工智能的流行数据集带有性别偏见。例如,一张男性做饭的图片会被误认为是女性,因为在培训数据中,厨师往往是女性。

SpringBoard.ai的首席执行官Bruce Molloy说:“无论我们有什么偏见,要是存在各种歧视、种族或性别或年龄,那些东西都会反映在数据中。”

构建人工智能系统的公司需要考虑分析数据的数据和算法是否符合组织的原则、目标和价值。

他说:“你不能将判断、道德和价值外包给人工智能。”

他说,这可能来自帮助人们了解人工智能如何以自己的方式做出决定的分析工具,来自内部或外部审计师,还是评估委员会。

合规性也是数据来源的一个问题——仅仅因为一个公司可以获取信息,并不意味着它可以随心所欲地使用信息。

IDC的认知和人工智能系统研究主管David Schubmehl说,组织已经开始审计机器学习模型,并且研究进入这些模型的数据。

他说,独立的审计公司也开始关注它。

他说:“我认为这将成为审计过程的一部分,但与其它任何东西一样,这是一个新兴领域。组织仍在试图弄明白什么才是最佳实践。”

他表示,在此之前,公司要谨慎行事。

他说:“我认为我们还处在这样的初级阶段——人工智能或机器学习模型还只是向受过培训的专业人员提供建议和帮助,而不是自己完成工作。人工智能应用程序要花更长的时间来创建,因为人们正试图确保数据是正确的,数据得到合理的集成,并且他们拥有正确的数据类型和正确的数据集。”

普华永道公司的股东兼全球人工智能领导者Anand Rao表示,即使完全准确的数据也可能存在盖然性的偏差。比如说,如果有一家位于中西部的保险公司利用历史数据来训练人工智能系统,然后扩展到佛罗里达州,该系统对于预测飓风风险将不会有用。

他说:“历史是有效的,数据是有效的。问题是,你在哪里使用这个模型,以及如何使用这个模型?”

假数据的崛起

这些内在偏见可能难以发现,但至少它们不涉及积极尝试弄乱结果的数据源。以在社交媒体上传播假新闻为例,这里的问题越来越严重。

Rao说:“这是一场军备竞赛。”

虽然社交媒体公司正在努力解决这个问题,但黑客正在使用自己的人工智能来创建聪明得足以骗过人类的人工智能,无论是影响社交媒体还是让广告商相信他们才是真正的消费者。

Lucidworks首席执行官Will Hayes说:“我们已经看到了影响。看看选举以及用机器人和其它操纵者放大消息的做法。”

那些操纵者也并不总是在俄罗斯或中国。

Hayes说:“如果一个品牌希望在社交媒体上增大影响力,营销公司想要证明他们增加了你的曝光率,这根本就不必动用工程师来思考他们赖以操纵数据的方法。”

这就是领域知识和常识发挥作用的地方。

加里根莱曼集团(The Garrigan Lyman Group,该公司是一家营销公司,帮助公司处理来自各种渠道的数据)的首席威廉希尔官方网站 官Chris Geiser说:“了解数学和模式只能让你走到这一步了。你要了解所有的个人数据来源,这才是最重要的事情,你越了解自己的数据,你想要达到的目标以及你的关键绩效指标,你就越能指向正确的方向。”

对数据源进行三角测量

如果一家公司的数据有多个来源,那么在应用任何机器学习之前,以一个数据来源为准检查另一个数据来源,这是很重要。

作为全球最大的电信公司之一,NTT集团在其网络基础设施中生成了大量的数据。

NTT Security的安全研究全球副总裁Kenji Takahashi说:“我们处于安全目的而使用机器学习来分析网络流量数据。我们的最终目标是全面了解隐藏在网络中的恶意僵尸网络基础设施。”

该公司目前正在投资威廉希尔官方网站 ,以提高机器学习培训数据的质量。为此,NTT使用“集成(ensemble)”方法,对来自不同来源的数据分析结果进行加权投票,他这样说道。

然后,这些数据进入超大型数据库,将其作为机器学习的训练数据。

他说:“就像在教室里一样,学习任何错漏百出的劣质课本都是非常不利的。训练数据的质量决定了机器学习系统的性能。”

创建团队和工具来解决问题

Infosys于1月份发布的一项调查显示,49%的IT决策者表示他们无法部署他们想要的人工智能,因为他们的数据还没就绪。

Infosys的高级副总裁兼产品管理和战略主管Sudhir Jha说:“人工智能正在成为商业战略的核心,但数据管理仍然是一个挥之不去的障碍。”

在这里,领导力才能是关键,对于一些开展人工智能旅程的组织来说,第一步可能是任命一位首席数据官,SAP的Leonardo和人工智能部门的全球副总裁Marc Teerlink表示,拥有首席数据官的公司能更好地管理数据。

他说:“错进错出。数据质量,所有权和治理都事关重大。”

普华永道的Rao说,如今的大多数公司都必须开发自己的威廉希尔官方网站 来准备用于人工智能和机器学习系统的数据。为此,你需要数据科学家,如果你内部不具备这样的脑力,你可以聘请顾问来完成这项工作。

一些前瞻的公司,例如Bluestem Brands,正在使用人工智能来处理供其它人工智能系统使用的数据。这家拥有13个不同零售品牌(包括Fingerhut和Bedford Fair)的公司已采取这种方法来确保搜索黑色服装的顾客能获得所有相关结果——无论供应商将这种颜色称为“黑色”、“午夜”、“深海市蜃楼”或“深灰色(dark charcoal)”。

IT主管Jacob Wagner说:“艺术家有无限的创造力来指代同一个基本色彩的色差——它永无止境”。不仅仅是颜色。他说:“同样的问题存在于人类解析和解释的每个属性上。”

Bluestem用唾手可得的碎片创建了数据准备系统。

Wagner说:“搜索威廉希尔官方网站 在很大程度上正在商品化。词法分析、文本匹配,所有这些威廉希尔官方网站 已经成为典范并得到了改善,开源算法与任何专有软件包一样高效。”

而且并不需要动用博士级别的数据科学家来做这种事。

他说:“有了一些才华横溢的工程师,你可以想出将它接入数据流的方法。”

Wagner是Apache Spark的忠实粉丝,Apache Spark是一个大数据引擎,它可以从很多不同来源获取数据并对其进行切割,Apache Solr是一个开源搜索引擎。Bluestem不仅在面向客户的方面使用它,而且还在内部使用它,以帮助编辑工作流(译注:原文为editorial workflows,editorial可能是指iOS上的一款文本编辑神器,同时可用于制作工作流workflow)。

该公司还使用Lucidworks Fusion这样的商业产品,后者允许商业用户通过额外的业务逻辑来定制搜索体验——比如说,可以将与情人节有关的查询集中到一系列策略集中,而不需要IT人员参与。

有了正确的数据管理策略、工具和人员,你可以大大提高组织的人工智能获得成功的可能性。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1791

    文章

    47314

    浏览量

    238635
  • 机器学习
    +关注

    关注

    66

    文章

    8420

    浏览量

    132682

原文标题:人工智能最大的风险因素:数据出错

文章出处:【微信号:D1Net08,微信公众号:AI人工智能D1net】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    【「具身智能机器人系统」阅读体验】+数据在具身人工智能中的价值

    嵌入式人工智能(EAI)将人工智能集成到机器人等物理实体中,使它们能够感知、学习环境并与之动态交互。这种能力使此类机器人能够在人类社会中有效地提供商品及服务。 数据是一种货币化工具 数据
    发表于 12-24 00:33

    嵌入式和人工智能究竟是什么关系?

    应用场景。例如,在智能家居领域,嵌入式系统可以控制各种智能设备,如智能灯泡、智能空调等,而人工智能则可以实现对这些设备的
    发表于 11-14 16:39

    Anthropic在人工智能领域取得重大突破

     10月23日消息,美国当地时间周二,人工智能初创企业Anthropic宣布了一项重大进展。这家由前OpenAI高管创立并获得亚马逊支持的公司,在人工智能领域取得了新的突破,其研发的AI智能
    的头像 发表于 10-23 14:56 465次阅读

    《AI for Science:人工智能驱动科学创新》第6章人AI与能源科学读后感

    、优化等方面的应用有了更清晰的认识。特别是书中提到的基于大数据和机器学习的能源管理系统,通过实时监测和分析能源数据,实现了能源的高效利用和智能化管理。 其次,第6章通过多个案例展示了人工智能
    发表于 10-14 09:27

    AI for Science:人工智能驱动科学创新》第4章-AI与生命科学读后感

    阅读这一章后,我深感人工智能与生命科学的结合正引领着一场前所未有的科学革命,以下是我个人的读后感: 1. 威廉希尔官方网站 革新与生命科学进步 这一章详细阐述了人工智能如何通过其强大的数据处理和分析能力,加速生命科学
    发表于 10-14 09:21

    《AI for Science:人工智能驱动科学创新》第一章人工智能驱动的科学创新学习心得

    人工智能:科学研究的加速器 第一章清晰地阐述了人工智能作为科学研究工具的强大功能。通过机器学习、深度学习等先进威廉希尔官方网站 ,AI能够处理和分析海量数据,发现传统方法难以捕捉的模式和规律。这不仅极大地提高了
    发表于 10-14 09:12

    risc-v在人工智能图像处理应用前景分析

    其在人工智能图像处理领域的应用提供更多支持。 标准化和规范化推进 :为了降低RISC-V的碎片化风险并促进其在全球范围内的广泛应用,标准化和规范化将是未来的重要趋势。这将有助于提升RISC-V威廉希尔官方网站
    发表于 09-28 11:00

    人工智能ai4s试读申请

    目前人工智能在绘画对话等大模型领域应用广阔,ai4s也是方兴未艾。但是如何有效利用ai4s工具助力科研是个需要研究的课题,本书对ai4s基本原理和原则,方法进行描诉,有利于总结经验,拟按照要求准备相关体会材料。看能否有助于入门和提高ss
    发表于 09-09 15:36

    名单公布!【书籍评测活动NO.44】AI for Science:人工智能驱动科学创新

    大力发展AI for Science的原因。 第2章从科学研究底层的理论模式与主要困境,以及人工智能三要素(数据、算法、算力)出发,对AI for Science的威廉希尔官方网站 支撑进行解读。 第3章介绍了在
    发表于 09-09 13:54

    报名开启!深圳(国际)通用人工智能大会将启幕,国内外大咖齐聚话AI

    8月28日至30日,2024深圳(国际)通用人工智能大会暨深圳(国际)通用人工智能产业博览会将在深圳国际会展中心(宝安)举办。大会以“魅力AI·无限未来”为主题,致力于打造全球通用人工智能领域集产品
    发表于 08-22 15:00

    FPGA在人工智能中的应用有哪些?

    FPGA(现场可编程门阵列)在人工智能领域的应用非常广泛,主要体现在以下几个方面: 一、深度学习加速 训练和推理过程加速:FPGA可以用来加速深度学习的训练和推理过程。由于其高并行性和低延迟特性
    发表于 07-29 17:05

    欧盟设立人工智能风险监控部门

    欧盟强调,此举将为落实《人工智能法案》提供重要支撑。据悉,本月21日,欧盟理事会已正式通过《人工智能法案》,成为全球首部全面监管人工智能的法律。
    的头像 发表于 05-30 09:57 382次阅读

    5G智能物联网课程之Aidlux下人工智能开发(SC171开发套件V2)

    5G智能物联网课程之Aidlux下人工智能开发(SC171开发套件V2) 课程类别 课程名称 视频课程时长 视频课程链接 课件链接 人工智能 参赛基础知识指引 14分50秒 https
    发表于 05-10 16:46

    5G智能物联网课程之Aidlux下人工智能开发(SC171开发套件V1)

    课程类别 课程名称 视频课程时长 视频课程链接 课件链接 人工智能 参赛基础知识指引 14分50秒 https://t.elecfans.com/v/25508.html *附件:参赛基础知识指引
    发表于 04-01 10:40

    嵌入式人工智能的就业方向有哪些?

    嵌入式人工智能的就业方向有哪些? 在新一轮科技革命与产业变革的时代背景下,嵌入式人工智能成为国家新型基础建设与传统产业升级的核心驱动力。同时在此背景驱动下,众多名企也纷纷在嵌入式人工智能领域布局
    发表于 02-26 10:17