0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看威廉希尔官方网站 视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

游戏AI对自对弈推理速度提出新要求

NVIDIA英伟达企业解决方案 来源:NVIDIA英伟达企业解决方案 作者:NVIDIA英伟达 2021-10-22 09:23 次阅读

腾讯一直积极地推动强化学习在游戏AI领域的发展,并在2019年推出了“开悟”AI开放研究平台,提供不同游戏的训练场景、支撑AI进行强化训练的大规模算力、统一的强化学习框架以加速研发速度、通用的训练与推理服务,加快AI训练速度。

游戏AI对自对弈推理速度提出新要求

和图像以及语音的训练方式不同,目前在游戏AI训练上表现最好的方式是强化学习。强化学习除了需要大量的算力来训练深度学习网络之外,还需要一个自对弈的模块用来产生训练数据。在自对弈模块当中,会interwetten与威廉的赔率体系 游戏环境,并且选择不同时期的模型来操控游戏内的角色,AI对游戏内角色的每一操控都需要对模型进行一次前向推理。由于更新模型的训练数据来自于自对弈模块,因此自对弈的推理速度会对整个模型的训练速度和效果造成非常大的影响。

而自对弈推理每一次前向推理对延时的要求比实际的线上服务小,因此常见的方式是通过CPU来进行自对弈中的推理,但CPU成本太高。为了提高自对弈的速度与吞吐,减少推理成本,腾讯希望在“开悟”AI开放研究平台里面充分利用GPU去进行自对弈中的模型前向推理。

TensorRT 助力“开悟”AI加速自对弈推理

为了解决在自对弈推理当中GPU利用率不高的问题, 腾讯“开悟”AI开放研究平台选择使用NVIDIA V100 GPU和NVIDIA TensorRT推理引擎来加速推理。

为了自动化地将模型从TensorFlow转换到TensorRT, 腾讯“开悟”AI开放研究平台一开始通过自行开发parser,将TensorFlow的算子映射到TensorRT的算子。同时,为了支持更广泛的模型与算子,减少维护和开发的成本, 腾讯“开悟”AI开放研究平台也积极地与NVIDIA合作,推动从TensorFlow转换成ONNX模型,再通过TensorRT ONNX parser转换到TensorRT的流程。

在自对弈的过程中,需要频繁地更新模型的权重,让自对弈模型始终能保持在较新的状态。这个更新的频率大概几分钟一次,每次必须限制在几百个毫秒。如果通过重新build engine 的方式来更新模型的话,无法满足上述要求。因此 腾讯“开悟”AI开放研究平台采用 TensorRT refit engine的功能来更新权重。同时,为了对更新权重有更好的支持、以及支持更多的算子, 腾讯“开悟”AI开放研究平台从原本的TensorRT 5 升级到TensorRT 7。

TensorRT 7虽然在部分算子上支持权重更新,但并不支持LSTM这个在游戏AI当中很重要的算子。为了解决这个问题, 腾讯“开悟”AI开放研究平台通过开发TensorRT插件的方式封装LSTM算子,并在插件当中更新权重。

为了充分利用NVIDIA V100 GPU的Tensor core, 腾讯“开悟”AI开放研究平台希望能够使用TensorRT FP16精度来加速推理。由于TensorRT对FP16的支持非常成熟和简便,整个推理流程很快被切换到FP16,并取得了2倍左右的加速。

寻找模型推理时的性能瓶颈,通过开发TensorRT插件进行算子融合,进一步地提升推理的速度。

在完成以上的工作之后,对比TensorFlow的基础版本,TensorRT 7 能提供5倍以上的加速效果。

通过NVIDIA V100 GPU以及TensorRT推理引擎加速自对弈训练的推理部分,腾讯“开悟”AI开放研究平台极大地提升了自对弈推理的吞吐量与速度,进一步地提升了整个模型训练的速度与降低训练成本,加快模型迭代的周期。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    4996

    浏览量

    103223
  • gpu
    gpu
    +关注

    关注

    28

    文章

    4744

    浏览量

    129018
  • AI
    AI
    +关注

    关注

    87

    文章

    31028

    浏览量

    269383

原文标题:NVIDIA TensorRT助力腾讯加速“开悟”AI开放研究平台

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    高效大模型的推理综述

    大模型由于其在各种任务中的出色表现而引起了广泛的关注。然而,大模型推理的大量计算和内存需求对其在资源受限场景的部署提出了挑战。业内一直在努力开发旨在提高大模型推理效率的威廉希尔官方网站 。本文对现有的关于高效
    的头像 发表于 11-15 11:45 426次阅读
    高效大模型的<b class='flag-5'>推理</b>综述

    AI推理CPU当道,Arm驱动高效引擎

    AI的训练和推理共同铸就了其无与伦比的处理能力。在AI训练方面,GPU因其出色的并行计算能力赢得了业界的青睐,成为了当前AI大模型最热门的芯片;而在
    的头像 发表于 11-13 14:34 2482次阅读
    <b class='flag-5'>AI</b><b class='flag-5'>推理</b>CPU当道,Arm驱动高效引擎

    李开复:中国擅长打造经济实惠的AI推理引擎

    10月22日上午,零一万物公司的创始人兼首席执行官李开复在与外媒的交流中透露,其公司旗下的Yi-Lightning(闪电模型)在推理成本上已实现了显著优势,比OpenAI的GPT-4o模型低了31倍。他强调,中国擅长打造经济实惠的AI
    的头像 发表于 10-22 16:54 369次阅读

    蜂窝式移动通信设备CCC标准换版新要求

    蜂窝式移动通信设备的CCC标准(即中国强制性产品认证标准)换版确实提出新要求,主要涉及YD/T 2583.18-2024《蜂窝式移动通信设备电磁兼容性能要求和测量方法 第18部分:5G用户设备和辅助设备》(以下简称“新版标准”
    的头像 发表于 10-19 10:02 310次阅读
    蜂窝式移动通信设备CCC标准换版<b class='flag-5'>新要求</b>

    当前主流的大模型对于底层推理芯片提出了哪些挑战

    随着大模型时代的到来,AI算力逐渐变成重要的战略资源,对现有AI芯片也提出了前所未有的挑战:大算力的需求、高吞吐量与低延时、高效内存管理、能耗等等。
    的头像 发表于 09-24 16:57 679次阅读

    AMD助力HyperAccel开发全新AI推理服务器

    HyperAccel 是一家成立于 2023 年 1 月的韩国初创企业,致力于开发 AI 推理专用型半导体器件和硬件,最大限度提升推理工作负载的存储器带宽使用,并通过将此解决方案应用于大型语言模型来
    的头像 发表于 09-18 09:37 375次阅读
    AMD助力HyperAccel开发全新<b class='flag-5'>AI</b><b class='flag-5'>推理</b>服务器

    如何基于OrangePi AIpro开发AI推理应用

    。通过昇腾CANN软件栈的AI编程接口,可满足大多数AI算法原型验证、推理应用开发的需求。AscendCL(AscendComputingLanguage,昇腾计算
    的头像 发表于 06-04 14:23 548次阅读
    如何基于OrangePi AIpro开发<b class='flag-5'>AI</b><b class='flag-5'>推理</b>应用

    开发者手机 AI - 目标识别 demo

    识别demo: JS实现UI界面的功能; Native接口及实现主要为JS提供接口进行AI推理。通过Native方式完成推理的前处理、推理以及后处理,这里通过调用opencv、Mind
    发表于 04-11 16:14

    AI时代下PMIC需求暴增,设计提出新要求

      电子发烧友网报道(文/黄山明)随着AI威廉希尔官方网站 的快速发展,AI芯片的功耗和性能也在不断提升,这对电源系统提出了更高的要求。为了满足AI芯片对
    的头像 发表于 03-26 00:22 5019次阅读
    <b class='flag-5'>AI</b>时代下PMIC需求暴增,设计<b class='flag-5'>提出新要求</b>

    AMD EPYC处理器:AI推理能力究竟有多强?

    如今,AMD EPYC处理器已经成为最常被选择用于AI推理的服务器平台,尤其是第四代Genoa EPYC 9004系列,执行AI推理的能力又得到了巨大的飞跃。
    发表于 03-15 09:47 520次阅读

    AI推理框架软件ONNX Runtime正式支持龙架构

    近日,知名AI推理框架开源社区ONNX Runtime正式发布支持龙架构的版本1.17.0。
    的头像 发表于 03-12 12:23 595次阅读
    <b class='flag-5'>AI</b><b class='flag-5'>推理</b>框架软件ONNX Runtime正式支持龙架构

    Groq LPU崛起,AI芯片主战场从训练转向推理

    人工智能推理的重要性日益凸显,高效运行端侧大模型及AI软件背后的核心威廉希尔官方网站 正是推理。不久的未来,全球芯片制造商的主要市场将全面转向人工智能推理领域。
    的头像 发表于 02-29 16:46 1193次阅读

    使用NVIDIA Triton推理服务器来加速AI预测

    这家云计算巨头的计算机视觉和数据科学服务使用 NVIDIA Triton 推理服务器来加速 AI 预测。
    的头像 发表于 02-29 14:04 594次阅读

    美国FCC发布无线充设备WPT的新要求KDB680106 D01

    2023年10月24日美国FCC发布无线充新要求KDB680106 D01Wireless Power Transfer v04,FCC整合了近两年TCB workshop所提出的指引要求,详见如下内容;
    的头像 发表于 01-30 10:09 906次阅读
    美国FCC发布无线充设备WPT的<b class='flag-5'>新要求</b>KDB680106 D01

    惠普推出新一代AI游戏本,并计划推出首个AI PC本地AI解决方案

    近日,惠普发布了新一代AI游戏笔记本电脑,这些新款笔记本在性能和AI功能方面都有显著提升。其中,14英寸暗影精灵10 SLIM被公认为惠普目前最轻的游戏笔记本,它搭载了酷睿Ultra
    的头像 发表于 01-22 15:58 923次阅读