0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看威廉希尔官方网站 视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

博弈论应有的作用

IEEE电气电子工程师 来源:IEEE电气电子工程师 作者:IEEE电气电子工程师 2022-07-28 10:53 次阅读

“数据中心”和“博弈”(其英文为game,亦有游戏之意)二词可能会让人联想到《魔兽世界》等多人在线游戏。但数据中心内还上演着另一种博弈,即共享计算机和存储系统对资源的抢占。 甚至数据量堪称最大的谷歌公司的员工也曾进行过这样的博弈。当要求提交某项工作的计算需求时,一些员工为了减少与他人共享的资源数量而夸大资源请求。

有趣的是,还有些员工会减少资源请求,假装自己的任务可以在任何计算机中轻松完成。一旦他们的任务被提交到机器上,就会耗尽机器上所有可用的资源,挤兑其他任务。 这种伎俩看起来有点滑稽,实际上却引发了真正的问题——效率低下。 2018年,全球数据中心耗电量达2050亿千瓦时,差不多和澳大利亚全境的用电量相当,约占全世界总用电量的1%。因服务器未能满负荷运行,大量能源被浪费。一台服务器空闲时消耗的电力是其峰值运行时的50%,因为服务器运行任务时,其固定电力成本会分摊到该任务上。运行单任务的用户通常只占用20%到30%的服务器资源,因此多个用户必须共享服务器,以提高利用率,进而提升能源效率。共享服务器还可以降低资金、运营和基础设施的成本。毕竟并非人人都有足够的财力来建立属于自己的数据中心。为了分配共享资源,数据中心部署资源管理系统,根据用户需求和系统自身目标来分配可用的处理器内核、内存容量和网络资源。乍一看,这项任务应当是简单明了的,因为用户往往会有互补需求。但事实并非如此。共享造成了用户之间的竞争,就如谷歌投机取巧的员工那样,这会扭曲资源的使用。因此,我们开展了一系列项目,采用博弈论,即描述理性决策者之间策略互动的数学模型,来管理利己用户之间的资源分配,实现数据中心效率最大化。采用博弈论后,情况变得大为不同。

帮助一群理性而利己的用户有效共享资源不是大数据时代的产物。几十年来,经济学家一直在这样做。在经济学中,市场机制根据供求来决定资源的价格。实际上,亚马逊EC2和微软Azure等公共数据中心中都部署了此类机制。在那里,真实的货币转移作为一种工具,使用户动机(性能)与提供商目标(效率)趋于一致。然而,很多情况下,货币交换并不起作用。

举一个简单的例子。假设你在最好朋友的婚礼上得到一张歌剧票,你决定把票赠送给最喜欢这场歌剧的人。因此你要进行所谓的第二价格密封拍卖:你让朋友出价,规定赢家支付第二高的竞价。数学上已经证明,在这场拍卖中,你的朋友没有动机谎报对这张歌剧票的估价。如果你不想要钱或不让朋友付给你钱,你的选择就会变得非常有限。如果你询问朋友想看歌剧的意愿,他们定会夸大想要歌剧票的愿望。歌剧票只是一个简单的例子,但在很多地方,比如谷歌私人数据中心或学术计算机集群,金钱要么不能转手,要么不该转手,因此不能以此来决定归谁所有。博弈论恰好为此类问题提供了实用的解决方案,并已实用于计算机网络和计算机系统。我们可以从这两个领域获得灵感,但也不必解决其局限性。为避免计算机网络拥塞,人们在设计管理机制方面做了很多工作,以此来管理自利和不协调的路由器。但是这些模型只考虑了对单个资源——网络带宽——的争抢;而在数据中心计算机集群和服务器中,要争夺的有各种各样的资源。在计算机系统中,人们对考虑多种资源分配机制的兴趣越来越浓厚,其中非常著名的是主体资源公平机制。然而,这类工作仅限于性能模型以及处理器与内存的比率,并不总能反映数据中心的情况。为提出适用于数据中心的博弈论模型,我们深入研究硬件架构的细节,从最小层次——晶体管开始。长期以来,晶体管功耗随体积缩小而降低,部分原因在于工作电压降低。然而,20世纪初,这种被称为登纳德缩放比例的定律被打破。其结果是,在固定功率预算内,处理器的速度不能再按照我们习惯的速度增长。临时解决方案是在同一芯片内安置多个处理器内核,这样仍可以经济地冷却大量的晶体管。然而,你很快发现,长时间全速开启运行所有内核会熔化芯片。2012年,计算机架构师提出了一种叫作“计算冲刺”(computational sprinting)的变通方法。其概念是,处理器内核在较短的时间隔内安全地突破功率预算,称为冲刺。一次冲刺之后,处理器必须在下一次冲刺之前冷却下来;否则芯片就会损毁。如果处理得当,冲刺可使系统更快速地响应工作负载的变化。冲刺计算最初针对的是智能手机等移动设备的处理器,这些处理器必须限制功耗,节省电量,同时避免灼伤用户。但冲刺很快便应用于数据中心,帮助处理瞬时激增的计算需求。

这便是问题所在。假设自私用户启用可实现冲刺的服务器,这些服务器在数据中心中共享一个电源。用户可以通过冲刺来提高处理器的计算能力,但若众多处理器同时冲刺,电源负荷将会激增,断路器将跳闸。在系统恢复时,迫使不间断电源(UPS)中的电池提供电力。电力应急状况出现后,电池需要充电,在此期间连接此电源的所有服务器都必须按额定功率运行,不允许冲刺。

这种情形是典型“公地悲剧”的一个版本,英国经济学家威廉•福斯特•罗伊德 (William Forster Lloyd)在1833年的一篇文章中首次提出这一概念。他描述了如下情况:假设牧民共享一片牧牛地。如果一位牧民的牧牛超过规定数量,他就可以获得边际收益。但如果许多牧民效仿,过度放牧就会破坏土地,无人能独善其身。我们与当时杜克大学的博士生樊淞春(Songchun Fan,音)将冲刺策略作为公地悲剧来研究。我们构建了一个关注两个主要物理约束的系统模型。首先,对于服务器处理器,在芯片散热时,要求处理器等待,并限制下一次冲刺操作。其次,对于服务器集群,如果断路器跳闸,在不间断电源(UPS)电池充电期间,所有服务器处理器都必须等待。我们设计了一个冲刺博弈游戏,用户在每一回合中可能处于活跃状态、冲刺后的冷却状态或紧急断电后的恢复状态。在每个回合,或者每一轮游戏中,用户唯一的决定是处理器处于活跃状态时是否进行冲刺。用户希望优化冲刺的收益,比如提高吞吐量或减少执行时间。注意,这些收益会随着冲刺的时间而变化。例如,需求越高,冲刺收益越大。

举一个简单的例子。假如你正处于第5回合游戏,冲刺将为你带来10个单位的收益。然而,你必须让处理器冷却几轮才能再次冲刺。如果等到第6回合再冲刺,你可以获得20个单位的收益。或者你打算不在第5回合冲刺,而保留到未来某一回合,但所有其他用户都决定在第5回合冲刺,于是出现了电力应急情况,导致你无法在后面数回合中冲刺。更糟糕的是,你的收益降低了。所有用户的决策都必须基于他们的获益和其他用户的冲刺策略。当少数几个用户博弈时或许很有趣,但当竞争对手的数量增长到数据中心规模时,决策就变得非常棘手。幸好,我们发现了在大型系统中优化每个用户策略的方法,即所谓的平均场博弈分析。这一方法将用户行为描述为一个整体,避免了审视每个竞争对手策略的复杂性。这种统计方法的关键是假设任何单个用户的动作都不会明显改变平均系统行为。基于这一假设,我们可估计所有用户对任意指定用户造成的影响。这类似于千百万个上班族试图优化日常出行的方法。比如有一个上班族名叫爱丽丝,她不可能对每个路人的出行方式进行推断,但她可以将所有上班族作为一个群体来形成某种预测,比如某一天他们希望到达的时间,以及他们的出行计划对交通拥堵的影响。平均场博弈分析能够使我们找到冲刺游戏的“平均场平衡”。用户优化自己对群体的响应,在平衡状态下,偏离用户对群体的最佳响应不会给用户带来益处。在交通领域的类比中,爱丽丝据其对通勤群体平均行为的了解来优化自己的通勤。如果优化后的计划未能达到预期交通模式,她会校正预测并重新考虑计划。随着每位上班族几天优化一次,交通趋于某种重复的模式,上班族的独立行为便会产生一种整体的平衡。

根据平均场平衡,我们制定了冲刺博弈游戏的最优策略,可归结如下:当性能增益超过某个阈值(具体视用户而定)时,用户应冲刺。可以通过数据中心的工作负载及其物理特性来计算这一阈值。在平均场平衡状态下,每位用户都以其最优阈值运行,系统可获得诸多收益。首先,数据中心的电源可以实现分布式管理,用户无须向中央管理器请求冲刺许可,可自行实施策略。这种独立使电源控制更加灵敏、节能。用户可以在几微秒的时间内调节处理器功耗,而如果他们必须等待几十毫秒才能获得许可并通过数据中心,那么这种效果将难以实现。其次,平衡可以完成更多计算工作,用户可以根据自己的工作负载需求适时优化冲刺策略。最后,用户的策略变得简单明了——当增益超过阈值时进行冲刺。这非常易于实现,且便于执行。

我们在过去5年里开发了一系列数据中心管理系统,冲刺电源管理项目仅仅是其中之一。在每一个系统中,我们都使用硬件架构和系统的关键细节来规划博弈。当参与者表现出自私的行为时,建成的实用管理机制也可保障系统能够稳定运行。我们相信,这种保障会鼓励参与共享系统,并为节能和可扩展的数据中心奠定坚实基础。

尽管我们已经设法解决服务器多处理器、服务器机架和服务器集群级别的资源分配问题,但是将它们用于大型数据中心仍将需要更多的工作。首先,必须能够生成数据中心的性能配置文件。数据中心必须部署监视硬件运行的必要设施、评估性能效果并推算资源参数。此类系统的多数博弈论解决方案都要离线分析阶段。而更积极一点的方法,可以从一些先验知识开始建造在线机制,然后在执行过程中随着特征变得更清晰,不断更新其参数。甚至可能通过强化学习或其他形式的人工智能来在线改进机制的博弈规则。另外,在数据中心,用户可能随时到达和离开系统;任务可能会在不同阶段进入和退出;服务器可能会发生故障并重新启动。所有这些事件都需要重新分配资源,但是资源的重新分配可能会破坏整个系统的计算,要求数据分流,从而耗尽资源。在保持每个人公平博弈的同时,应对所有这些变化都需要进行更多的工作,但我们相信博弈论将发挥其应有的作用。

审核编辑:彭静
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 服务器
    +关注

    关注

    12

    文章

    9231

    浏览量

    85625
  • 数据中心
    +关注

    关注

    16

    文章

    4806

    浏览量

    72208
  • 大数据
    +关注

    关注

    64

    文章

    8896

    浏览量

    137517

原文标题:博弈论制胜数据中心

文章出处:【微信号:IEEE_China,微信公众号:IEEE电气电子工程师】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    有的MOSFET都有体二极管吗?它有什么作用呢?硬件工程师要搞懂的电路知识点

    Part 01 前言 与三极管等其他的有源器件相比,MOSFET的不同寻常之处在于其原理图符号会包含一个寄生器件——体二极管。那么是不是所有的MOSFET都会有体二极管吗?这个体二极管它有什么作用
    的头像 发表于 12-07 17:11 1782次阅读
    所<b class='flag-5'>有的</b>MOSFET都有体二极管吗?它有什么<b class='flag-5'>作用</b>呢?硬件工程师要搞懂的电路知识点

    【锂电池】DSC测试锂电池隔膜闭孔温度熔点

    一、概述隔膜的作用1.使电池的正,负极分隔开来,防止短路;2.吸附电池中电解液,确保高的离子电导率;3.有的还能防止对电池反应有害的物质在电极间迁移;4.保证在电池发生异常时使电池反应停止,提高电池
    的头像 发表于 11-11 09:30 270次阅读
    【锂电池】DSC测试锂电池隔膜闭孔温度熔点

    D类功放喇叭输出端会接RC串联在喇叭上面,它的作用是什么?

    D类功放喇叭输出端会接RC串联在喇叭上面,这个作用是什么?还看到有的是接CR,如下面这个图C201和R200,这个有什么区别吗,还有喇叭之间会接电容,这个作用又是什么,如下面的C33 ?还想请教各位,谢谢!
    发表于 11-01 07:25

    求救大佬,有没有大佬知道这个B772在这个电路里面是什么作用

    从计算机过来搞PCB的,没看懂这个B772在这里的作用,想请教大佬这个B772在这个电路的作用是怎么样的。 查过资料有的说是开关,有的说是稳压,不太清除。
    发表于 09-25 23:15

    OP07供电电源中串个小电阻,有什么作用

    看到有的设计中,运放(OP07)供电电源中串个小电阻,不知道有什么作用有的在12V时串电阻1K。
    发表于 09-24 08:32

    霍尔式传感器工作原理与电磁感应有什么关系

    生电动势的现象。霍尔式传感器的工作原理与电磁感应有着密切的关系。 霍尔效应的发现 霍尔效应是由美国物理学家埃德温·霍尔(Edwin Hall)在1879年发现的。他观察到,当电流通过一个置于磁场中的导体时,导体两侧会产生一个垂直于电
    的头像 发表于 09-23 15:18 426次阅读

    OPA2340UA 0输入时,有的运放是0输出,有的0输入有输出,这是怎么回事?

    自己在供应商买了一些OPA2340UA发现0输入时,有的运放是0输出,有的0输入有输出,而且输出的大小不一样,为了完成我所需要的功能,要更换很多次运放,我以为是买到了假的运放,然后在官网申请了一些样片,发现也是这样
    发表于 08-29 07:28

    漏电保护器对什么情况不起作用

    漏电保护器是一种用于检测和保护电气线路中漏电现象的电气安全装置。它能够及时切断电源,防止电气火灾、触电事故等安全问题的发生。然而,漏电保护器并非万能的,它在某些特定情况下可能无法起到应有的保护作用
    的头像 发表于 08-26 09:16 4219次阅读

    助焊剂的作用主要有哪些

    ,助焊剂的化学作用便显得尤为重要。它能与氧化层发生反应,清除氧化物,从而露出干净的金属表面,使其能够与焊料顺利结合。 助焊剂与氧化物之间的化学反应有多种机制:生成新物质、直接剥离氧化物或两者同时发生。例如,松香
    的头像 发表于 08-15 18:07 774次阅读

    pcb射频天线的边际效应有哪些

    信号。然而,在设计、制造和使用过程中,PCB射频天线可能会受到多种边际效应的影响,这些效应可能会降低天线的性能,甚至导致系统失效。边际效应主要源于电磁波的相互作用、材料特性、设计缺陷以及环境因素等。 1. 电磁波的相互作用 1.1 耦合效应 在
    的头像 发表于 07-19 10:01 609次阅读

    基于 ZYNQ AlphaGo 的棋类人机博弈 AR 系统

    。近些年来,增强现实(简称 AR)与人工神经网络算法结合成为了一种极有价值的研究方向,本项作品中,我们采用卷积神经网络和蒙特卡洛树复刻了Alphago 的棋类博弈神经网络, 配合
    发表于 07-17 19:27

    记录一次使用easypoi时与源码博弈的过程

    一、背景介绍 最近刚刚接手了保险一线之声平台的开发和维护工作,第一个需要修复的问题是:平台的事件导出成excel功能在经过一次上线之后突然不可用了,于是就开始了几轮痛苦的排查以及与源码博弈的过程
    的头像 发表于 07-03 16:33 357次阅读
    记录一次使用easypoi时与源码<b class='flag-5'>博弈</b>的过程

    这才是封装设计应有的样子:插接件焊盘

    插件孔的标准孔径尺寸:0.60mm(23.6mil),0.70mm(27.6mil),0.80mm(31.5mil),0.90mm(35.4mil),1.0mm(39.4mil)插件元器件引线(圆柱形)直径与插件孔直径D之差应为0.40mm(16mil)~0.60mm(24mil),即插件孔与元器件引线的间隙L为0.20mm(7.9mil)~0.30mm(1
    的头像 发表于 06-21 08:11 1264次阅读
    这才是封装设计<b class='flag-5'>应有的</b>样子:插接件焊盘

    企业数据备份体系化方法的七大原则:数据生命周期规划:资产管理的新篇章

    在数字化浪潮中,数据如同新时代的石油,成为了推动企业前进的核心动力。但与所有宝贵资源一样,如果我们不能妥善管理,这种无形的资产就难以发挥其应有的价值。这就是为何数据生命周期规划(DLP)显得如此重要
    的头像 发表于 03-11 14:24 362次阅读

    数据中心机房建设的痛点:投资与运维之间的博弈

    在数字化浪潮的推动下,数据中心机房建设成为企业发展不可或缺的一环。然而,这一过程中存在一系列的痛点,其中投资与运维之间的博弈成为机房建设的重要议题。本文将深入探讨机房系统建设中的投资及运行维护痛点
    的头像 发表于 02-03 09:54 770次阅读