0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看威廉希尔官方网站 视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

美团落实 AI 框架在 GPU 上性能推理的优化实践

NVIDIA英伟达企业解决方案 来源:NVIDIA英伟达企业解决方案 作者:NVIDIA英伟达企业解 2021-12-28 09:11 次阅读

美团是一家集生活服务及商品零售的电商平台,公司聚焦“零售+科技”战略,以“吃”为核心,通过科技创新,服务于生活服务业需求侧和供给侧数字化升级。美团在中国业务涵盖餐饮、配送、网约车、共享单车、酒店及旅游预订、电影票务等 200 多个服务品类,覆盖全国 2800 个市区县,服务 6.7 亿活跃用户和 830万活跃商家。

伴随着用户规模的提升和业务的精细化运营,业务侧对推荐系统的准确度、吞吐能力和时延都提出了新的挑战,而 CTR 模型作为推荐系统的核心模型,其效果直接影响业务的收入。

美团的 CTR 模型过去一直在使用 CPU 推理的方式,但随着用户访问量的提升和深度神经网络的引入,CTR 模型结构趋于复杂,吞吐和计算量也越来越大,CPU 开始不能满足模型对于算力的需求,而仅仅通过 CPU 服务器的堆叠带来的性能提升性价比相较偏低。

GPU 拥有数以千计的计算核心,可以在单机内提供密集的并行计算能力,特别适合深度学习场景,在行业内已经在 CV 、NLP 等领域展示了强大的能力。通过 CUDA 及相关 API ,NVIDIA 建立了完整的 GPU 生态系统。基于此,美团基础研发平台将 CTR 模型部署到 GPU 上,并通过一系列针对 CPU 与 GPU 的异构系统并行计算设计、数据存储方式和传输方式上的特定优化,希望能通过 GPU 强大的计算力,协助美团在 CTR 预测的各业务场景中发挥出最大优势。

为了解决算力瓶颈及上述各种挑战,美团机器学习平台采用 NVIDIA AI 计算平台,在继 CV 、NLP 及 CTR 训练后,也使用了 NVIDIA T4 来提供 CTR 预测支持,大幅提升用户体验与服务稳定性。除此之外,时延也是业务侧非常重视的性能指标,许多复杂模型纵有更好的准确度,但却因响应时间不达标而无法落地应用,例如,在某搜索框自动补全的场景,由于天然的交互属性,时延要求非常苛刻,一般来说无法使用复杂的模型。而在 GPU 能力的加持下,其复杂模型的平均响应时间从 15 毫秒降低至 6~7 毫秒,足足缩短了一倍多,达到了上线要求。

通过 NVIDIA T4 深度优化方案,成功为美团 CTR 模型创造更多应用机会,不仅极大地提升了系统吞吐量,更进一步地提升了整个模型训练的速度与降低训练成本,落实 AI 框架在 GPU 上性能推理的优化实践。

美团研发工程师,机器学习平台预测引擎负责人王新表示,“在美团和英伟达的共同努力下, CTR 预测服务成功的迁移到 GPU 平台上,在为业务提供更好的支撑的同时也获得了更好的性价比;下一步,机器学习平台计划采用 NVIDIA Triton 推理服务框架和 NVIDIA Ampere A30 ,进一步提升美团推理服务的效率。”

原文标题:美团机器学习平台使用 NVIDIA GPU 助力公司 CTR 预测服务升级

文章出处:【微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

审核编辑:彭菁
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • cpu
    cpu
    +关注

    关注

    68

    文章

    10855

    浏览量

    211615
  • NVIDIA
    +关注

    关注

    14

    文章

    4981

    浏览量

    103000
  • AI
    AI
    +关注

    关注

    87

    文章

    30763

    浏览量

    268917
  • 美团
    +关注

    关注

    0

    文章

    125

    浏览量

    10355

原文标题:美团机器学习平台使用 NVIDIA GPU 助力公司 CTR 预测服务升级

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    SSM框架性能优化技巧 SSM框架中RESTful API的实现

    SSM框架性能优化技巧 SSM(Spring + Spring MVC + MyBatis)框架性能
    的头像 发表于 12-17 09:10 137次阅读

    SSM框架在Java开发中的应用 如何使用SSM进行web开发

    。以下是对SSM框架在Java开发中的应用,以及如何使用SSM进行web开发的介绍: SSM框架的组件及其作用 Spring :Spring是一个开源的Java/Java EE全功能栈
    的头像 发表于 12-16 17:28 443次阅读

    Arm KleidiAI助力提升PyTorchLLM推理性能

    热门的深度学习框架尤为突出,许多企业均会选择其作为开发 AI 应用的库。通过部署 Arm Kleidi 威廉希尔官方网站 ,Arm 正在努力优化 PyTorch,以加速在基于 Arm 架构的处理器
    的头像 发表于 12-03 17:05 754次阅读
    Arm KleidiAI助力提升PyTorch<b class='flag-5'>上</b>LLM<b class='flag-5'>推理性能</b>

    《算力芯片 高性能 CPUGPUNPU 微架构分析》第3篇阅读心得:GPU革命:从图形引擎到AI加速器的蜕变

    对卷积核优化的思考。 GPU的存储体系采用了独特的倒金字塔结构,在我看来这是其计算性能的关键。大容量寄存器设计破解了传统冯诺依曼架构的内存瓶颈,合并访存机制巧妙解决了内存带宽限制。NVIDIA
    发表于 11-24 17:12

    NPU与GPU性能对比

    它们在不同应用场景下的表现。 一、设计初衷与优化方向 NPU : 专为加速AI任务而设计,包括深度学习和推理。 针对神经网络的计算模式进行了优化,能够高效地执行矩阵乘法、卷积等操作。
    的头像 发表于 11-14 15:19 912次阅读

    FPGA和ASIC在大模型推理加速中的应用

    随着现在AI的快速发展,使用FPGA和ASIC进行推理加速的研究也越来越多,从目前的市场来说,有些公司已经有了专门做推理的ASIC,像Groq的LPU,专门针对大语言模型的推理做了
    的头像 发表于 10-29 14:12 402次阅读
    FPGA和ASIC在大模型<b class='flag-5'>推理</b>加速中的应用

    TI TDA2x SoC基于GPU的环视优化

    电子发烧友网站提供《TI TDA2x SoC基于GPU的环视优化.pdf》资料免费下载
    发表于 10-10 09:14 0次下载
    TI TDA2x SoC<b class='flag-5'>上</b>基于<b class='flag-5'>GPU</b>的环视<b class='flag-5'>优化</b>

    揭秘动态化跨端框架在鸿蒙系统下的高性能解决方案

    平台解决方案。 在研发团队使用后可大幅降低研发人力成本;为业务提供实时触达、A/B触达等能力以提升业务投放效率;同时保障了C端用户优秀的用户体验。 一、动态化跨端框架原理介绍        通过上图,我们先了解一下动态化跨端框架在iOS、Android等多个平台实现
    的头像 发表于 10-08 13:46 788次阅读
    揭秘动态化跨端<b class='flag-5'>框架在</b>鸿蒙系统下的高<b class='flag-5'>性能</b>解决方案

    澎峰科技高性能大模型推理引擎PerfXLM解析

    自ChatGPT问世以来,大模型遍地开花,承载大模型应用的高性能推理框架也不断推出,大有百家争鸣之势。在这种情况下,澎峰科技作为全球领先的智能计算服务提供商,在2023年11月25日发布了针对大语言
    的头像 发表于 09-29 10:14 463次阅读
    澎峰科技高<b class='flag-5'>性能</b>大模型<b class='flag-5'>推理</b>引擎PerfXLM解析

    AI真·炼丹:整整14天,无需人类参与

    ,甚至是整个AI平台或全流程加速实践成果,重点就是如何更好地利用CPU来提升AI,包括大模型应用的性能和效率。
    的头像 发表于 07-02 14:15 279次阅读
    <b class='flag-5'>AI</b>真·炼丹:整整14天,无需人类参与

    进一步解读英伟达 Blackwell 架构、NVlink及GB200 超级芯片

    。 **英伟达Blackwell架构在数据中心方面的应用有哪些?** 1. **AI **大模型训练 Blackwell 架构的 GPU 针对当前火爆的 AI 大模型进行了优化,能够
    发表于 05-13 17:16

    利用NVIDIA组件提升GPU推理的吞吐

    实践中,唯品会 AI 平台与 NVIDIA 团队合作,结合 NVIDIA TensorRT 和 NVIDIA Merlin HierarchicalKV(HKV)将推理的稠密网络和热 Embedding 全置于
    的头像 发表于 04-20 09:39 719次阅读

    开发者手机 AI - 目标识别 demo

    Lite的API接口实现主要功能; Mindspore Lite为Openharmony AI推理框架,为上层应用提供统一的AI推理接口,
    发表于 04-11 16:14

    FPGA在深度学习应用中或将取代GPU

    最后说,“我们决定专注于软件业务,探索研究提升神经网络性能和降低延迟的方案。Zebra 运行在 FPGA ,因此无需更换硬件就可以支持 AI 推理。FPGA 固件的每次刷新都能给我
    发表于 03-21 15:19

    AI推理框架软件ONNX Runtime正式支持龙架构

    近日,知名AI推理框架开源社区ONNX Runtime正式发布支持龙架构的版本1.17.0。
    的头像 发表于 03-12 12:23 570次阅读
    <b class='flag-5'>AI</b><b class='flag-5'>推理</b><b class='flag-5'>框架</b>软件ONNX Runtime正式支持龙架构