美团落实 AI 框架在 GPU 上性能推理的优化实践-电子发烧友网

美团是一家集生活服务及商品零售的电商平台，公司聚焦“零售+科技”战略，以“吃”为核心，通过科技创新，服务于生活服务业需求侧和供给侧数字化升级。美团在中国业务涵盖餐饮、配送、网约车、共享单车、酒店及旅游预订、电影票务等 200 多个服务品类，覆盖全国 2800 个市区县，服务 6.7 亿活跃用户和 830万活跃商家。

伴随着用户规模的提升和业务的精细化运营，业务侧对推荐系统的准确度、吞吐能力和时延都提出了新的挑战，而 CTR 模型作为推荐系统的核心模型，其效果直接影响业务的收入。

美团的 CTR 模型过去一直在使用 CPU 推理的方式，但随着用户访问量的提升和深度神经网络的引入，CTR 模型结构趋于复杂，吞吐和计算量也越来越大，CPU 开始不能满足模型对于算力的需求，而仅仅通过 CPU 服务器的堆叠带来的性能提升性价比相较偏低。

而 GPU 拥有数以千计的计算核心，可以在单机内提供密集的并行计算能力，特别适合深度学习场景，在行业内已经在 CV 、NLP 等领域展示了强大的能力。通过 CUDA 及相关 API ，NVIDIA 建立了完整的 GPU 生态系统。基于此，美团基础研发平台将 CTR 模型部署到 GPU 上，并通过一系列针对 CPU 与 GPU 的异构系统并行计算设计、数据存储方式和传输方式上的特定优化，希望能通过 GPU 强大的计算力，协助美团在 CTR 预测的各业务场景中发挥出最大优势。

为了解决算力瓶颈及上述各种挑战，美团机器学习平台采用 NVIDIA AI 计算平台，在继 CV 、NLP 及 CTR 训练后，也使用了 NVIDIA T4 来提供 CTR 预测支持，大幅提升用户体验与服务稳定性。除此之外，时延也是业务侧非常重视的性能指标，许多复杂模型纵有更好的准确度，但却因响应时间不达标而无法落地应用，例如，在某搜索框自动补全的场景，由于天然的交互属性，时延要求非常苛刻，一般来说无法使用复杂的模型。而在 GPU 能力的加持下，其复杂模型的平均响应时间从 15 毫秒降低至 6~7 毫秒，足足缩短了一倍多，达到了上线要求。

通过 NVIDIA T4 深度优化方案，成功为美团 CTR 模型创造更多应用机会，不仅极大地提升了系统吞吐量，更进一步地提升了整个模型训练的速度与降低训练成本，落实 AI 框架在 GPU 上性能推理的优化实践。

美团研发工程师，机器学习平台预测引擎负责人王新表示，“在美团和英伟达的共同努力下， CTR 预测服务成功的迁移到 GPU 平台上，在为业务提供更好的支撑的同时也获得了更好的性价比；下一步，机器学习平台计划采用 NVIDIA Triton 推理服务框架和 NVIDIA Ampere A30 ，进一步提升美团推理服务的效率。”

原文标题：美团机器学习平台使用 NVIDIA GPU 助力公司 CTR 预测服务升级

文章出处：【微信公众号：NVIDIA英伟达企业解决方案】欢迎添加关注！文章转载请注明出处。

审核编辑：彭菁

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

cpu

cpu

+关注

关注
68

文章
10855

浏览量
211615
NVIDIA

NVIDIA

+关注

关注
14

文章
4981

浏览量
103000
AI

AI

+关注

关注
87

文章
30763

浏览量
268917
美团

美团

+关注

关注
0

文章
125

浏览量
10355

原文标题：美团机器学习平台使用 NVIDIA GPU 助力公司 CTR 预测服务升级

文章出处：【微信号：NVIDIA-Enterprise，微信公众号：NVIDIA英伟达企业解决方案】欢迎添加关注！文章转载请注明出处。

SSM框架的性能优化技巧 SSM框架中RESTful API的实现

SSM框架的性能优化技巧 SSM（Spring + Spring MVC + MyBatis）框架的性能

发表于 12-17 09:10 •137次阅读

SSM框架在Java开发中的应用如何使用SSM进行web开发

。以下是对SSM框架在Java开发中的应用，以及如何使用SSM进行web开发的介绍： SSM框架的组件及其作用 Spring ：Spring是一个开源的Java/Java EE全功能栈

发表于 12-16 17:28 •443次阅读

Arm KleidiAI助力提升PyTorch上LLM推理性能

热门的深度学习框架尤为突出，许多企业均会选择其作为开发 AI 应用的库。通过部署 Arm Kleidi 威廉希尔官方网站，Arm 正在努力优化 PyTorch，以加速在基于 Arm 架构的处理器上

发表于 12-03 17:05 •754次阅读

《算力芯片高性能 CPUGPUNPU 微架构分析》第3篇阅读心得：GPU革命：从图形引擎到AI加速器的蜕变

对卷积核优化的思考。 GPU的存储体系采用了独特的倒金字塔结构，在我看来这是其计算性能的关键。大容量寄存器设计破解了传统冯诺依曼架构的内存瓶颈，合并访存机制巧妙解决了内存带宽限制。NVIDIA

发表于 11-24 17:12

NPU与GPU的性能对比

它们在不同应用场景下的表现。一、设计初衷与优化方向 NPU ：专为加速AI任务而设计，包括深度学习和推理。针对神经网络的计算模式进行了优化，能够高效地执行矩阵乘法、卷积等操作。

发表于 11-14 15:19 •912次阅读

FPGA和ASIC在大模型推理加速中的应用

随着现在AI的快速发展，使用FPGA和ASIC进行推理加速的研究也越来越多，从目前的市场来说，有些公司已经有了专门做推理的ASIC，像Groq的LPU，专门针对大语言模型的推理做了

发表于 10-29 14:12 •402次阅读

TI TDA2x SoC上基于GPU的环视优化

电子发烧友网站提供《TI TDA2x SoC上基于GPU的环视优化.pdf》资料免费下载

发表于 10-10 09:14 •0次下载

揭秘动态化跨端框架在鸿蒙系统下的高性能解决方案

平台解决方案。在研发团队使用后可大幅降低研发人力成本；为业务提供实时触达、A/B触达等能力以提升业务投放效率；同时保障了C端用户优秀的用户体验。一、动态化跨端框架原理介绍通过上图，我们先了解一下动态化跨端框架在iOS、Android等多个平台实现

发表于 10-08 13:46 •788次阅读

澎峰科技高性能大模型推理引擎PerfXLM解析

自ChatGPT问世以来，大模型遍地开花，承载大模型应用的高性能推理框架也不断推出，大有百家争鸣之势。在这种情况下，澎峰科技作为全球领先的智能计算服务提供商，在2023年11月25日发布了针对大语言

发表于 09-29 10:14 •463次阅读

AI真·炼丹：整整14天，无需人类参与

，甚至是整个AI平台或全流程加速上的实践成果，重点就是如何更好地利用CPU来提升AI，包括大模型应用的性能和效率。

发表于 07-02 14:15 •279次阅读

进一步解读英伟达 Blackwell 架构、NVlink及GB200 超级芯片

。 **英伟达Blackwell架构在数据中心方面的应用有哪些？** 1. **AI **大模型训练 Blackwell 架构的 GPU 针对当前火爆的 AI 大模型进行了优化，能够

发表于 05-13 17:16

利用NVIDIA组件提升GPU推理的吞吐

本实践中，唯品会 AI 平台与 NVIDIA 团队合作，结合 NVIDIA TensorRT 和 NVIDIA Merlin HierarchicalKV（HKV）将推理的稠密网络和热 Embedding 全置于

发表于 04-20 09:39 •719次阅读

开发者手机 AI - 目标识别 demo

Lite的API接口实现主要功能； Mindspore Lite为Openharmony AI推理框架，为上层应用提供统一的AI推理接口，

发表于 04-11 16:14

FPGA在深度学习应用中或将取代GPU

最后说，“我们决定专注于软件业务，探索研究提升神经网络性能和降低延迟的方案。Zebra 运行在 FPGA 上，因此无需更换硬件就可以支持 AI 推理。FPGA 固件的每次刷新都能给我

发表于 03-21 15:19

AI推理框架软件ONNX Runtime正式支持龙架构

近日，知名AI推理框架开源社区ONNX Runtime正式发布支持龙架构的版本1.17.0。

发表于 03-12 12:23 •570次阅读