0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看威廉希尔官方网站 视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

7nm制程,比GPU效率高,Meta发布第一代AI推理加速器

AI智胜未来 来源:机器之心 2023-05-26 15:41 次阅读

近日,Meta 透露了其在人工智能方面取得的最新进展。

人们提起 Meta 时,通常会想到其应用程序,包括 Facebook、Instagram、WhatsApp 或即将推出的元宇宙。但许多人不知道的是这家公司设计和构建了非常复杂的数据中心来运营这些服务。

与 AWS、GCP 或 Azure 等云服务提供商不同,Meta 不需要披露有关其硅芯选择、基础设施或数据中心设计的细节,除了其 OCP 设计用来给买家留下深刻印象。Meta 的用户希望获得更好、更一致的体验,而不关心它是如何实现的。

在 Meta,AI 工作负载无处不在,它们构成了广泛用例的基础,包括内容理解、信息流、生成式 AI 和广告排名。这些工作负载在 PyTorch 上运行,具有一流的 Python 集成、即时模式(eager-mode)开发和 API 简洁性。特别是深度学习推荐模型(DLRMs),对于改善 Meta 的服务和应用体验非常重要。但随着这些模型的大小和复杂性的增加,底层的硬件系统需要在保持高效的同时提供指数级增长的内存和计算能力。

Meta 发现,对于目前规模的 AI 运算和特定的工作负载,GPU 的效率不高,并不是最佳选择。因此,该公司提出了推理加速器 MTIA,帮助更快地训练 AI 系统。

MTIA V1

4ca17d8c-fb2c-11ed-90ce-dac502259ad0.png

MTIA v1(推理)芯片(die)

2020 年,Meta 为其内部工作负载设计了第一代 MTIA ASIC 推理加速器。该推理加速器是其全栈解决方案的一部分,整个解决方案包括芯片、PyTorch 和推荐模型。

MTIA 加速器采用 TSMC 7nm 工艺制造,运行频率为 800 MHz,在 INT8 精度下提供 102.4 TOPS,在 FP16 精度下提供 51.2 TFLOPS。它的热设计功耗 (TDP) 为 25 W。

MTIA 加速器由处理元件 (PE)、片上和片外存储器资源以及互连组成。该加速器配备了运行系统固件的专用控制子系统。固件管理可用的计算和内存资源,通过专用主机接口与主机通信,协调加速器上的 job 执行。

内存子系统使用 LPDDR5 作为片外 DRAM 资源,可扩展至 128 GB。该芯片还有 128 MB 的片上 SRAM,由所有 PE 共享,为频繁访问的数据和指令提供更高的带宽和更低的延迟。

MTIA 加速器网格包含以 8x8 配置组织的 64 个 PE,这些 PE 相互连接,并通过网状网络连接到内存块。整个网格可以作为一个整体来运行一个 job,也可以分成多个可以运行独立 job 的子网格。

每个 PE 配备两个处理器内核(其中一个配备矢量扩展)和一些固定功能单元,这些单元经过优化以执行关键操作,例如矩阵乘法、累加、数据移动和非线性函数计算。处理器内核基于 RISC-V 开放指令集架构 (ISA),并经过大量定制以执行必要的计算和控制任务。

每个 PE 还具有 128 KB 的本地 SRAM 内存,用于快速存储和操作数据。该架构最大限度地提高了并行性和数据重用性,这是高效运行工作负载的基础。

该芯片同时提供线程和数据级并行性(TLP 和 DLP),利用指令级并行性 (ILP),并通过允许同时处理大量内存请求来实现大量的内存级并行性 (MLP)。

4d2fdce4-fb2c-11ed-90ce-dac502259ad0.png

MTIA v1 系统设计

MTIA 加速器安装在小型双 M.2 板上,可以更轻松地集成到服务器中。这些板使用 PCIe Gen4 x8 链接连接到服务器上的主机 CPU,功耗低至 35 W。

4d5ef182-fb2c-11ed-90ce-dac502259ad0.png

带有 MTIA 的样品测试板

托管这些加速器的服务器使用来自开放计算项目的 Yosemite V3 服务器规范。每台服务器包含 12 个加速器,这些加速器连接到主机 CPU,并使用 PCIe 交换机层级相互连接。因此,不同加速器之间的通信不需要涉及主机 CPU。此拓扑允许将工作负载分布在多个加速器上并并行运行。加速器的数量和服务器配置参数经过精心选择,以最适合执行当前和未来的工作负载。

MTIA 软件栈

MTIA 软件(SW)栈旨在提供给开发者更好的开发效率和高性能体验。它与 PyTorch 完全集成,给用户提供了一种熟悉的开发体验。使用基于 MTIA 的 PyTorch 与使用 CPU 或 GPU 的 PyTorch 一样简单。并且,得益于蓬勃发展的 PyTorch 开发者生态系统和工具,现在 MTIA SW 栈可以使用 PyTorch FX IR 执行模型级转换和优化,并使用 LLVM IR 进行低级优化,同时还支持 MTIA 加速器自定义架构和 ISA。

下图为 MTIA 软件栈框架图:

4e236b98-fb2c-11ed-90ce-dac502259ad0.png

作为 SW 栈的一部分,Meta 还为性能关键型 ML 内核开发了一个手动调整和高度优化的内核库,例如完全连接和嵌入包运算符。在 SW 栈的更高层级可以选择在编译和代码生成过程中实例化和使用这些高度优化的内核。

此外,MTIA SW 栈随着与 PyTorch 2.0 的集成而不断发展,PyTorch 2.0 更快、更 Python 化,但一如既往地动态。这将启用新功能,例如 TorchDynamo 和 TorchInductor。Meta 还在扩展 Triton DSL 以支持 MTIA 加速器,并使用 MLIR 进行内部表示和高级优化。

MTIA 性能

Meta 比较了 MTIA 与其他加速器的性能,结果如下:

4e597684-fb2c-11ed-90ce-dac502259ad0.png

Meta 使用五种不同的 DLRMs(复杂度从低到高)来评估 MTIA

此外,Meta 还将 MTIA 与 NNPI 以及 GPU 进行了比较,结果如下:

4e63c922-fb2c-11ed-90ce-dac502259ad0.png

评估发现,与 NNPI 和 GPU 相比,MTIA 能够更高效地处理低复杂度(LC1 和 LC2)和中等复杂度(MC1 和 MC2)的模型。此外,Meta 尚未针对高复杂度(HC)模型进行 MTIA 的优化。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 加速器
    +关注

    关注

    2

    文章

    799

    浏览量

    37853
  • gpu
    gpu
    +关注

    关注

    28

    文章

    4734

    浏览量

    128914
  • pytorch
    +关注

    关注

    2

    文章

    808

    浏览量

    13218

原文标题:7nm制程,比GPU效率高,Meta发布第一代AI推理加速器

文章出处:【微信号:AI智胜未来,微信公众号:AI智胜未来】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    所谓的7nm芯片上没有个图形是7nm

    最近网上因为光刻机的事情,网上又是阵热闹。好多人又开始讨论起28nm/7nm的事情了有意无意之间,我也看了不少网上关于国产自主7nm工艺的文章。不过这些文章里更多是抒情和遐想,却很少
    的头像 发表于 10-08 17:12 348次阅读
    所谓的<b class='flag-5'>7nm</b>芯片上没有<b class='flag-5'>一</b>个图形是<b class='flag-5'>7nm</b>的

    RISC-V拥有巨大市场潜力的原因

    发布了第三“香山”开源高性能RISC-V处理核,其性能水平已进入全球第一梯队,可广泛应用于服务芯片、
    发表于 09-30 14:20

    AMD助力HyperAccel开发全新AI推理服务

    提高成本效率。HyperAccel 针对新兴的生成式 AI 应用提供超级加速的芯片 IP/解决方案。HyperAccel 已经打造出个快速、高效且低成本的
    的头像 发表于 09-18 09:37 360次阅读
    AMD助力HyperAccel开发全新<b class='flag-5'>AI</b><b class='flag-5'>推理</b>服务<b class='flag-5'>器</b>

    一代功能新一代AI加速器(DRP-AI3):10x在高级AI系统高级AI中更快的嵌入处理

    电子发烧友网站提供《下一代功能新一代AI加速器(DRP-AI3):10x在高级
    发表于 08-15 11:06 0次下载
    下<b class='flag-5'>一代</b><b class='flag-5'>高</b>功能新<b class='flag-5'>一代</b><b class='flag-5'>AI</b><b class='flag-5'>加速器</b>(DRP-<b class='flag-5'>AI</b>3):10x在高级<b class='flag-5'>AI</b>系统高级<b class='flag-5'>AI</b>中更快的嵌入处理

    步解读英伟达 Blackwell 架构、NVlink及GB200 超级芯片

    性能,加速模型的训练和推理过程。 2. 生成式 AI 解决方案 与英伟达 Grace CPU、新一代网络芯片等产品起,面向生成式
    发表于 05-13 17:16

    英特尔AI产品助力其运行Meta一代大语言模型Meta Llama 3

    英特尔丰富的AI产品——面向数据中心的至强处理,边缘处理AI PC等产品为开发者提供最新的优化,助力其运行Meta
    的头像 发表于 04-28 11:16 631次阅读

    台积电:AI服务处理预计翻番,拉动收入增长 

    台积电将 AI 服务处理严格限定为用于 AI 训练与推理GPU、CPU 及
    的头像 发表于 04-19 15:04 358次阅读

    Arm发布一代Ethos-U AI加速器 Arm旨在瞄准国产CPU市场

    Arm发布的新一代Ethos-U AI加速器确实在业界引起了广泛关注。
    的头像 发表于 04-18 15:59 751次阅读

    Arm推动生成式AI落地边缘!全新Ethos-U85 AI加速器支持Transformer 架构,性能提升四倍

    等领先企业均已推出搭载 Ethos-U 的量产芯片。最近,Arm发布Arm Ethos-U85 AI加速器,这款加速器在性能、算力、应用场景方面进
    的头像 发表于 04-16 09:10 4605次阅读
    Arm推动生成式<b class='flag-5'>AI</b>落地边缘!全新Ethos-U85 <b class='flag-5'>AI</b><b class='flag-5'>加速器</b>支持Transformer 架构,性能提升四倍

    Meta第二自研AI芯片出世,性能提升三倍以上

    电子发烧友网报道(文/周凯扬)不久前,Meta宣布将花费150亿美元,购置60多万块GPU,而这还没算上系统成本。就当大家以为Meta打算All In GPU之际,
    的头像 发表于 04-15 09:25 2178次阅读
    <b class='flag-5'>Meta</b>第二<b class='flag-5'>代</b>自研<b class='flag-5'>AI</b>芯片出世,性能提升三倍以上

    第一代通用开放人形机器人本体即将发布

    北京人形机器人创新中心近期将发布第一代通用开放人形机器人本体,这消息标志着人形机器人领域的个重要进展。
    的头像 发表于 03-20 14:20 813次阅读

    2024年全球与中国7nm智能座舱芯片行业总体规模、主要企业国内外市场占有率及排名

    类型及应用 2.9 7nm智能座舱芯片行业集中度、竞争程度分析 2.9.1 7nm智能座舱芯片行业集中度分析:2023年全球Top 5生产商市场份额 2.9.2 全球7nm智能座舱芯片第一
    发表于 03-16 14:52

    瑞萨发布下一代动态可重构人工智能处理加速器

    瑞萨最新发布的动态可重构人工智能处理(DRP-AI加速器,在业界引起了广泛关注。这款加速器拥有卓越的10 TOPS/W
    的头像 发表于 03-08 13:45 767次阅读

    NVIDIA将在今年第二季度发布Blackwell架构的新一代GPU加速器“B100”

    根据各方信息和路线图,NVIDIA预计会在今年第二季度发布Blackwell架构的新一代GPU加速器“B100”。
    的头像 发表于 03-04 09:33 1315次阅读
    NVIDIA将在今年第二季度<b class='flag-5'>发布</b>Blackwell架构的新<b class='flag-5'>一代</b><b class='flag-5'>GPU</b><b class='flag-5'>加速器</b>“B100”

    家居智能化,推动AI加速器的发展

    电子发烧友网报道(文/黄山明)AI加速芯片,也称为人工智能加速器AI Accelerator),是种专为执行机器学习和深度学习任务而设计
    的头像 发表于 02-23 00:18 4584次阅读