如何使算法公平?如何定义“公平”?-电子发烧友网

2015年，一位忧心忡忡的父亲向Rhema Vaithianathan提出一个问题，这个问题至今仍然困扰着她。

当时人们聚集在宾夕法尼亚州匹兹堡的一个会议室里，听她解释软件如何解决虐待儿童问题。每天，该地区的热线都会收到几十个怀疑孩子有危险的电话；其中一些随后被呼叫中心工作人员标记为进行调查。但该系统并未能发现所有虐待儿童案例。

Rhema Vaithianathan 建议算法以发现虐童事件

Vaithianathan和她的同事们刚刚获得了50万美元的资助以建立算法来提供帮助。Vaithianathan是一位健康经济学家，她也是新西兰奥克兰理工大学社会数据分析中心的联合主管，她告诉大家该算法如何运作。例如，一个收集大量数据的工具——包括家庭背景和犯罪记录——可以在来电时生成风险评分。这可以帮助电话筛选者标记要调查的家庭。

在Vaithianathan邀请观众提问后，那位父亲站起来说道，他曾与毒瘾斗争，因此，社工曾将一个孩子从他家带走。但他已戒毒一段时间。如果通过计算机评估他的记录，他为改变生活而付出的努力是否算数？换句话说：算法是否会对他做出不公平的判断？

Vaithianathan向他保证，人类将永远处于循环中，所以他的努力不会被忽视。但现在已经部署了自动化工具，她仍然会考虑他的问题。计算机的计算越来越多地用于指导可能改变生活的决定，包括哪些人在被指控犯罪后被拘留；哪些家庭应受到潜在的虐待儿童调查，以及在一种称为“预测性警务”的趋势中，警察应该关注哪些社区。这些工具有望使决策更加一致、准确和严谨。但监督是有限的：没人知道有多少工具正被使用，而且其带来的不公平风险已经引起了人们的注意。例如，2016年，美国记者认为，用于评估未来犯罪活动风险的系统歧视黑人被告。

“我最关心的是我们构建的系统可以改善问题（但）可能最终会加剧这些问题，” Kate Crawford说道，她是AI Now 研究所的联合创始人，该研究中心位于纽约大学，研究人工智能的社会影响。

随着Crawford和其他人挥舞着红旗，各国政府正试图让算法负起公平正义的责任。去年12月，纽约市议会通过了一项法案成立了一个工作组，建议如何共享有关算法的信息并对其进行调查以寻找偏见。今年法国总统埃马纽埃尔·马克龙（Emmanuel Macron）表示，该国将公开政府使用的所有算法。在本月发布的指导意见中，英国政府要求那些处理公共部门数据的人员要保持透明和负责。欧洲通用数据保护条例（GDPR）于5月底生效，这预计也将推动算法问责制。

在这种活动中，科学家们正面对复杂的问题，即如何使算法公平。正如Vaithianathan等研究人员，他们与公共机构合作，努力建立负责且有效的软件，必须努力解决自动化工具如何带来偏见或加剧现有的不公平现象——特别是当这些工具被置入已经存在歧视的社会系统时尤为重要。

公平权衡

2014年，当匹兹堡社会服务部的官员在呼吁提出自动化工具的建议时，他们还没有决定如何使用它。但他们希望对新系统持开放态度。该部门数据分析，研究和评估办公室副主任Erin Dalton说道，“我非常反对将政府资金用于黑箱解决方案，我无法告诉我们的社区我们正在做什么”。该部门拥有一个建于1999年的集中数据库，其中包含大量的个人信息——包括住房，心理健康和犯罪记录。Erin Dalton说，Vaithianathan的团队在关注儿童福利上投入巨大。

阿勒格尼家庭筛查工具（AFST）于2016年8月启动。针对每个热线电话，呼叫中心员工都能看到由自动风险评估系统生成的分数——1至20分，其中20分对应的案例风险最高。这些是AFST预测的儿童最有可能在两年内被赶出去的家庭。

加利福尼亚州斯坦福大学的独立研究员Jeremy Goldhaber-Fiebert仍在评估该工具。但Dalton说初步结果表明它有所帮助。她说，呼叫中心工作人员提到调查人员的案件似乎包括更多合法关注的案例。对于具有类似情况的案例，电话筛选器似乎也在做出更一致的决策。尽管如此，其决策并不一定与算法的风险评分一致；该县希望将两者更紧密地联系起来。

随着AFST的部署，Dalton希望得到更多的帮助来确定它是否有偏见。2016年，她邀请匹兹堡卡内基梅隆大学的统计学家Alexandra Chouldechova分析该软件是否歧视特定群体。Chouldechova已在考虑算法中的偏见，并且即将对一个引发了大量辩论的案例进行权衡。

同年5月，新闻网站ProPublica的记者报道了佛罗里达州布劳沃德县法官使用的商业软件，这有助于决定被控犯罪的人是否应该在审判前被释放。记者表示，该软件对黑人被告带有偏见。这个名为COMPAS的工具生成的分数旨在评估当一个人在被释放的情况下，其在两年内犯下另一罪行的可能性。

ProPublica团队调查了数千名被告的COMPAS分数。他们比较了黑人和白人被告，记者发现不成比例的黑人被告是“误报”：他们被COMPAS归类为高风险，但随后并未被指控犯有其他罪行。

该算法的开发人员，一家名为Northpointe（现为Equivant）的密歇根公司，认为该工具没有偏见。它说，COMPAS同样善于预测被归类为高风险的白人或黑人被告是否会重新犯罪。Chouldechova很快表明，Northpointe和ProPublica的公平测量标准之间存在紧张关系。预测性等同，相等的假阳性错误率和相等的假阴性错误率都是“公平”的方式，但如果两组之间存在差异，统计上无法调和——例如白人和黑人被重新逮捕的比率（参见“如何定义公平”）。伦敦大学学院负责机器学习的研究员Michael Veale说道：“你无法拥有一切。如果你想以某种方式公平，你可能在另一个听起来合理的定义中也是不公平的。

如何定义“公平”

研究算法偏差的研究人员表示，有很多方法可以定义公平，但这些方法有时相互矛盾。想象一下，在刑事司法系统中使用的算法会将分数分配给两组（蓝色组和紫色组），因为它们有被重新逮捕的风险。历史数据表明紫色组的逮捕率较高，因此该模型将紫色组中的更多人分类为高风险。即使模型的开发人员试图避免偏见，这种情况也可能发生。这是因为用作训练输入的其他数据可能也与蓝色或紫色相关。

高风险状态不能完美地预测重新逮捕，但算法的开发人员试图使预测公平：对于两个群体而言，“高风险”相当于两年内被逮捕的几率是三分之二。（这种公平性被称为预测性平等）未来逮捕率可能不会遵循过去的模式。但是在这个简单的例子中，假设他们这样做：正如预测的那样，蓝色组10人中的3人和紫色组10人中的6人确实是被逮捕了（可参见图中底部的灰色条形图）。

该算法具有预测奇偶性，但存在问题。在蓝色组中，7人中有1人（14％）被误认为是高风险；在紫色组中，4人中有2人（50％）被误认为是高风险。所以，紫色组更有可能出现“误报”情况，即被误认为是高风险。

有些人会认为紫色组的假阳性率较高是歧视。但其他研究人员认为，这并不一定是算法偏差的证据，且可能存在更深层次的不平衡来源：紫色组可能首先被不公平地聚焦了。过去的数据准确预测了紫色组中将有更多人被重新逮捕，该算法可能会重现，这也许是根深蒂固的，也即一种先前存在的社会偏见。

事实上，从数学角度来说，还有更多方法来定义公平：在今年2月的一次会议上，计算机科学家Arvind Narayanan发表了题为“21种对公平的定义及其政治学”的演讲，他指出还有其他方法。一些研究ProPublica案例的研究人员，包括Chouldechova，指出目前尚不清楚错误率是否存在偏差。斯坦福大学的计算机科学家Sharad Goel说，“他们反而反映出这样一种情况：较之于一个群体，对另一群体的预测可能更难。但事实证明，这或多或少是一种统计假象。”

新泽西卡姆登的警察使用自动工具来决定去哪些区域巡逻

虽然统计失衡是一个问题，但不公平的更深层面潜藏在算法中——它们可能会加剧社会不平等。例如，诸如COMPAS之类的算法旨在预测未来犯罪活动的可能性，但它只能依赖于可衡量的因素，例如被捕情况。警务实践的变化可能意味着某些社区成为不正常的目标，人们因其他社区可能被忽视的犯罪而被捕。华盛顿特区非营利性社会公正组织Upturn的董事总经理David Robinson说：“即使我们准确预测某些事情，我们准确预测的事情也可能是不公正的事情。” 这很大程度上取决于法官依赖这些算法做出决定的程度——但究竟是哪些算法却鲜为人知。

透明度及其局限性

按照Allegheny社会服务部门采用的方式，人们对提高透明度抱有很大的兴趣，Allegheny与相关人士合作并向记者敞开大门。AI Now研究所的Crawford说，算法通常会加剧问题，因为它们是“封闭的，无法进行算法审计、审查或公开辩论”。但目前尚不清楚如何使算法更加开放。Ghani说，简单地发布模型的所有参数并不能提供有关其工作原理的深入见解。透明度也可能与保护隐私的努力相冲突。在某些情况下，披露有关算法如何工作的过多信息可能允许人们对系统进行操纵。

Crawford认为，我们需要一系列“正当程序”来确保算法的责任性。4月，AI Now研究所为有兴趣负责任地采用算法决策工具的公共机构概述了一个框架；此外，它呼吁征求社区意见，并让人们有能力就对其做出的决定提起上诉。

许多人希望法律能够实现这些目标。Solon Barocas是康奈尔大学人工智能研究伦理与政策问题的研究员，他说，这是有一些先例的。在美国，一些消费者保护规则在对其信用做出不利决定时给予公民解释。Veale说，在法国，早在20世纪70年代，就有赋予解释权和自动决策争议能力的立法。

欧洲的GDPR将于5月25日生效。一些条款——例如有关自动决策案例中涉及的逻辑信息的权利——似乎促进了算法问责制。但英国牛津互联网研究所的数据伦理学家Brent Mittelstadt表示，GDPR可能通过为那些想要评估公平性的人创建一个“合法的雷区”来阻碍它。测试算法是否偏向某些组别的最佳方法——例如，它是否偏好一个组别而非另一个——需要了解进入系统的人的相关属性。但Mittelstadt表示，GDPR对使用此类敏感数据的限制非常严格，处罚如此之高，以至于有能力评估算法的公司可能没有动力处理这些信息。“这似乎是对我们评估公平性能力的限制。” Mittelstadt说道。

审查算法

与此同时，研究人员正在推进检测尚未开放供公众审查的算法偏差的策略。Barocas说，公司可能不愿意讨论他们如何努力解决公平问题，因为这意味着首先承认存在问题。他说，“即使他们这样做，其行为也只是有可能改善偏见但不能消除偏见。所以关于这一点的公开声明也将不可避免地承认问题仍然存在。”但最近几个月，微软和Facebook都宣布开发检测偏见的工具。

一些研究人员，如波士顿东北大学的计算机科学家Christo Wilson，试图从外部发现商业算法的偏见。Wilson已创建了interwetten与威廉的赔率体系乘客，他们声称正在寻找优步出租车，并将虚拟简历上传到就业网站以测试性别偏见。

其他人正在构建希望可以在自我评估中普遍使用的软件。今年5月，Ghani和他的同事发布了名为Aequitas的开源软件，以帮助工程师、政策制定者和分析师审查机器学习模型的偏见。

现正将其虐待儿童预测模型扩展到科罗拉多州道格拉斯和拉里默县的Vaithianathan看到了建立更好算法的价值，即使其所置入的总体系统存在缺陷。她说：“算法不能被空降到到这些复杂的系统之中，我们必须在那些了解更广泛背景的人的帮助下实施方案。但即便是最好的努力也将面临挑战，因此，在缺乏直接答案和完美解决方案的情况下，透明度是最好的政策。我的原则是：如果不能保持正确，那么至少要保持诚实！”

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

算法

算法

+关注

关注
23

文章
4612

浏览量
92890
机器学习

机器学习

+关注

关注
66

文章
8418

浏览量
132630

原文标题：试问: 随着机器学习渗透到社会各方面，我们该如何应对算法不公平问题？

文章出处：【微信号：thejiangmen，微信公众号：将门创投】欢迎添加关注！文章转载请注明出处。

平衡创新与伦理：AI时代的隐私保护和算法公平

，如果医生和患者都能了解AI推荐治疗方案的原因，将大大增加对威廉希尔官方网站的接受度和信任。算法公平性的保障同样不可或缺。AI系统在设计时就需要考虑到多样性和包容性，避免因为训练数据的偏差而导致结果的不公平

发表于 07-16 15:07

弹性分组环中公平算法的参数选择

弹性分组环（Resilient Packet Ring，RPR）是主要用于城域网的新型MAC 协议，已被IEEE 802.17 工作组标准化。公平性是RPR 的关键威廉希尔官方网站之一。本文着重研究了标准算法中不同算法参数下算

发表于 08-26 10:54 •6次下载

一种基于速率的公平队列管理算法

针对主动队列管理算法普遍存在的公平性问题，提出基于速率的公平队列管理算法RFED。该算法根据分组的到达速率调节丢包率，将队列的到达速率控制在

发表于 10-04 14:11 •15次下载

通用可组合的公平电子支付协议

公平性是电子支付协议的一个基本属性。该文基于通用可组合模型，定义了公平电子支付理想函数。在可转化签名理想函数、注册理想函数和安全会话理想函数辅助的混合模型下，

发表于 11-18 15:06 •0次下载

基于模糊流感知的动态优先公平调度算法

为适应网络的动态性，提高调度公平性和资源效率，流感知优先公平调度机制需要动态的多业务区分转发。与链路负载状态相关的模糊流感知能够实现路径上的一致性业务区分，而

发表于 11-24 14:16 •12次下载

基于邻近点算法的比例公平优化方法

（基于吞吐量的公平性），从而降低网络整体的性能。为了克服这一性能异常问题，基于比例公平的优化由于其吞吐量增强能力已经引起广大的关注。在本文中，提出了一种基于邻近点算法的比例公平优化方法

发表于 11-11 10:42 •7次下载

基于邻近点<b class='flag-5'>算法</b>的比例<b class='flag-5'>公平</b>优化方法

基于最大最小公平性的功率分配算法

针对多个终端直通通信（D2D）用户共享多个蜂窝用户资源的公平性问题，在保证蜂窝用户速率的前提下，提出了基于最大最小公平性（ max-min faimess）的功率分配算法。该算法首先将

发表于 12-04 11:46 •3次下载

云环境下能耗感知的公平性提升资源调度策略

针对云计算环境下大量的能源消耗和一些用户非法占有计算资源的问题，为了节约资源，同时提高系统的公平性，使所有用户能合理地使用数据中心的所有资源，提出一种基于能耗感知的节能公平的资源调度算法

发表于 12-11 16:42 •1次下载

异构云系统中基于智能优化算法的多维资源公平分配

了解矩阵表达式使异构云系统中的主资源公平分配（ DRFH）模型转化成为整数线性规划（ILP）模型，并提出了基于最大任务数匹配值（MTM）的初始解产生机制和使不可行解转化为可行解的修正操作，以此提高

发表于 12-13 17:19 •0次下载

基于公平心跳超时容错机制

故障误判损失模型，提出公平误判损失（FMJL）算法，使其同时满足长作业和短作业要求；接着，设计并实现了基于FMJL算法的公平超时机制。在实现了公平

发表于 01-02 10:43 •0次下载

公平高效机会干扰对齐算法

针对干扰对齐的实际应用提出的机会干扰对齐算法（OIA）存在通信资源分配不公平、所需用户基数大等问题。为此，提出一种基于轮询机制的公平高效机会干扰对齐算法。首先确定协作处理簇，并基于轮询

发表于 01-08 15:59 •0次下载

人工智能的算法公平性实现

我们解决了算法公平性的问题:确保分类器的结果不会偏向于敏感的变量值，比如年龄、种族或性别。由于一般的公平性度量可以表示为变量之间(条件)独立性的度量，我们提出使用Renyi最大相关系数将公平

发表于 11-06 17:04 •2642次阅读

怎么让机器理解“什么是公平”

来源：ST社区 “什么是公平”，就算是人类自己也没有统一的标准，它有时取决于语境。不论是在家里，还是在学校，教导小孩要公平是至关重要的，但说起来容易做起来难。正因为如此，我们要如何才能将社会上所说

发表于 12-22 22:06 •461次阅读

下行非正交多址接入系统的公平资源分配算法

针对下行非正交多址接入系统多用户场景，综合考虑吞吐量、服务质量、公平性、串行干扰消除（SIC）能力等因素，提出一种基于比例速率约束的公平资源分配算法。利用比例公平思想设计自适应比例

发表于 05-28 11:38 •4次下载

ReentrantLock公平锁与非公平锁的源码分析

今天为你带来的是 ReentrantLock 公平锁与非公平锁的源码分析，它是 Java 并发包下的一个 java.util.concurrent.locks 实现类，实现了 Lock 接口

发表于 10-13 14:13 •685次阅读

搜索历史

如何使算法公平?如何定义“公平”?

评论

平衡创新与伦理：AI时代的隐私保护和算法公平

弹性分组环中公平算法的参数选择

一种基于速率的公平队列管理算法

通用可组合的公平电子支付协议

基于模糊流感知的动态优先公平调度算法

基于邻近点算法的比例公平优化方法

基于最大最小公平性的功率分配算法

云环境下能耗感知的公平性提升资源调度策略

异构云系统中基于智能优化算法的多维资源公平分配

基于公平心跳超时容错机制

公平高效机会干扰对齐算法

人工智能的算法公平性实现

怎么让机器理解“什么是公平”

下行非正交多址接入系统的公平资源分配算法

ReentrantLock公平锁与非公平锁的源码分析