0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看威廉希尔官方网站 视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

传统用于数字设计的CPU是否已经达到了容量极限?

傅里叶的猫 来源:傅里叶的猫 2024-04-17 10:11 次阅读

本文翻译自Synopsys的官方文章:

在数字设计的Implementation过程中,从RTL到GDSII的每一步都是高度计算密集型的。在SoC层面,为了最小化互连的延迟,我们需要评估数百个partition的各种布局方案。一旦确定了布局方案,接下来就是进行每个partition内的其余步骤,以实现全芯片的implementation和signoff。由于每一步的计算需求已经很高,并且还要乘以partition的数量,这就引发了一个问题:传统用于数字设计的CPU是否已经达到了容量极限?GPU是否能够满足计算需求?

如今,GPU以其处理人工智能机器学习、游戏和高性能计算等要求最为苛刻的工作负载而闻名。随着芯片越来越大、越来越复杂,也许也是时候考虑用GPU来完成数字芯片设计的Implementation了。

CPU在EDA工作负载中的容量挑战

CPU长期以来被认为是计算机的“大脑”。拥有数十亿个晶体管和多个处理核心,如今的CPU非常适合完成广泛的任务,并且能够快速完成。另一方面,GPU最初是为特定目的设计的,但随着时间的推移,它们也转变为通用的并行处理器

一般来讲,EDA工具都是在基于x86处理器的CPU上运行的。然而,随着多芯片设计等复杂架构变得越来越普遍,我们正在接近CPU计算容量的限制。考虑到芯片设计团队始终面临的上市时间压力,利用额外的工具和威廉希尔官方网站 来加速芯片设计过程的任何方面都是有意义的。在验证和分析方面,新思科技的PrimeSim和VCS仿真流程已经从GPU加速中受益。虽然数字设计流程中的每个任务并不是都非常适合GPU,但有些任务确实可以加速。

最先进的高性能数据中心x86 CPU核心平均有64到128个核心,每个box最多约有200个核心。需要更多核心的任务需要分布在许多box上;如果网络不够快,这会产生一些开销。RTL到GDSII流程和优化威廉希尔官方网站 包含许多相互依赖性。为了使流程中的每个任务能够成功并行执行,作业分布在CPU box之间的数据共享必须非常快速,延迟要小。然而,实际上,网络延迟会妨碍周转时间,使得完整的RTL到GDSII流程的分布式并行化变得不那么有吸引力。

另一方面,GPU核心可以轻松扩展。每个核心执行的操作更少,而且非常微小,以至于你可以在一个插座中拥有数万个核心,以提供巨大的处理能力,同时保持可管理的占用空间。能够从大规模并行性中受益的任务非常适合GPU。然而,这样的任务也必须是主要单向的,因为任何决策和迭代都会减慢进程和/或需要回到CPU进行“如果那么”决策。这排除了许多RTL到GDSII数字implementation流程中的任务,尽管并非所有任务都不适合。

使用GPU加速加快布局过程

在数字设计流程中,自动布局是已经展示出在GPU上运行前景的一项任务。在商业环境中运行的原型中,新思科技的Fusion Compiler GPU加速布局威廉希尔官方网站 相比CPU,已经展示出显著的周转时间优势:

使用GPU放置一个3nm GPU流处理器设计,包含1.4M个可放置的标准单元和20个可放置的硬宏,仅需38秒,相比之下,CPU驱动的布局需要13分钟

使用GPU放置一个12nm汽车CPU设计,包含2.9M个可放置的标准单元和200个可放置的硬宏,仅需82秒,相比之下,CPU驱动的布局需要19分钟

结合新思科技DSO.ai的AI驱动自动设计空间优化,我们预计将在相同的完成时间线上将AI驱动的搜索空间扩大15倍到20倍。这样做可以使设计团队实现更好的功耗、性能和面积(PPA)结果。

在许多方面,由于对最终设计PPA的高影响,布局和 floorplanning 是涉及最广泛探索的implementation步骤。我们可以想象,即使GPU计算资源通常与强大的CPU计算集群分开,单个designer使用基于GPU的布局威廉希尔官方网站 也能具有很高的生产力。然而,在RTL到GDSII 的implementation流程的其余部分中,通过CPU和GPU集群之间移动设计数据引入的延迟可能会限制吞吐量优势。

新的数据中心SoC正在设计中,CPU和GPU资源之间具有统一内存,用于TB级工作负载。这些新兴架构消除了利用GPU加速所需的设计数据移动,并将允许我们考虑在数字设计流程中应用GPU加速的其他位置,特别是当设计师可以将GPU与AI驱动的implementation工具配对时,可以进行更快、更广泛的探索和更好的结果。随着像新思科技.ai这样的AI驱动的全栈EDA流程解决方案产生更好的PPA结果、更快的达到目标时间和更高的工程生产力,人们只能想象GPU加速的加入将如何进一步改变芯片设计。

总结

虽然芯片设计过程中的仿真部分对于在GPU上运行并不陌生,但很快数字设计流程的各个方面也将有机会利用GPU加速。对于大型芯片或复杂架构(如多芯片设计),CPU在运行RTL到GDSII流程时所需的计算容量正在耗尽,无法达到期望的速度。凭借其可扩展性和处理能力,GPU有可能提供更快的周转时间和更好的芯片结果。使用GPU驱动的放置器进行的原型实验已经将布局速度提高了多达20倍。随着AI集成到EDA流程中,加入GPU可以形成一个强大的组合,以提高PPA(功耗、性能和面积)和上市时间。



审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 芯片设计
    +关注

    关注

    15

    文章

    1017

    浏览量

    54880
  • 人工智能
    +关注

    关注

    1791

    文章

    47208

    浏览量

    238304
  • RTL
    RTL
    +关注

    关注

    1

    文章

    385

    浏览量

    59766
  • 机器学习
    +关注

    关注

    66

    文章

    8408

    浏览量

    132580
  • GPU芯片
    +关注

    关注

    1

    文章

    303

    浏览量

    5806

原文标题:GPU可以加速芯片设计的Implementaion吗?

文章出处:【微信号:傅里叶的猫,微信公众号:傅里叶的猫】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    数字压力表的准确度如何?是否用于精密测量?

    在工业和科研领域,压力的测量工作至关重要,而数字压力表因其直观的数字显示和高精度的特性,成为了这些领域不可或缺的测量工具。那么,数字压力表的准确度到底如何,它是否能满足精细测量的需求呢
    的头像 发表于 11-07 13:58 155次阅读
    <b class='flag-5'>数字</b>压力表的准确度如何?<b class='flag-5'>是否</b>适<b class='flag-5'>用于</b>精密测量?

    突破传输容量瓶颈:多芯光纤与空芯光纤

    伴随着容量的提升及输入功率的增加,由于非线性香农极限的影响,单模光纤的传输容量即将到达上限。传统单模光纤(SMF)传输系统的最大容量被认为在
    的头像 发表于 10-29 15:55 395次阅读
    突破传输<b class='flag-5'>容量</b>瓶颈:多芯光纤与空芯光纤

    数字孪生如何改变传统行业

    数字孪生作为一种前沿威廉希尔官方网站 ,正在深刻改变传统行业,其影响力和变革能力在各个领域中日益显现。以下是数字孪生如何改变传统行业的具体分析: 一、数字
    的头像 发表于 10-25 15:06 228次阅读

    怎样才知道一个单片机的性能到极限了?

    要确定一个单片机的性能是否达到极限,可以从多个方面进行综合评估。以下是一些主要的判断依据:
    的头像 发表于 09-11 09:39 300次阅读
    怎样才知道一个单片机的性能到<b class='flag-5'>极限</b>了?

    TLC2272输入电压为1V左右,较小放大倍数,在输入电压慢慢增大,输出就只有4.75V就达到了极限,为什么?

    ,较小放大倍数,在输入电压慢慢增大,输出就只有4.75V就达到了极限,请教这是什么原因? 使用是运放是TLC2272。
    发表于 09-04 06:11

    opa690前级放大,噪声达到了100mv,为什么?

    我用opa690作为前级放大,为什么噪声达到了。100mv,以下是我画的板,,各位大神给一下意见,看看我的板存在什么问题,为什么会有那么大的噪声
    发表于 09-02 07:51

    JAVA应用CPU跳点自动DUMP工具

    背景 在做系统监控时,CPU的使用率是一个关键的指标,它反映了系统的性能稳定性以及是否存在异常情况,能帮助我们了解系统的负载情况。通过监控CPU使用率,可以判断系统是否正常运行或者
    的头像 发表于 08-05 17:48 525次阅读

    数字功放机和传统功放哪个好用

    。然而,传统功放机凭借其稳定的性能和成熟的威廉希尔官方网站 ,依然有着不可替代的地位。 第一部分:基本概念与工作原理 1.1 数字功放机的基本概念 数字功放机,顾名思义,是一种将数字信号处理威廉希尔官方网站 应
    的头像 发表于 07-29 09:36 2299次阅读

    如何将精益思维应用于传统工厂的数字化转型?

    思维应用于传统工厂的数字化转型,为工厂注入新的活力。 一、认识精益思维 精益思维源于精益生产,它强调以客户需求为导向,通过消除浪费、优化流程、持续改进等方式,实现资源最大化利用和企业效益最大化。在
    的头像 发表于 07-18 09:43 220次阅读

    超级电容的容量达到多少?超级电容的容量有多大?

    超级电容器的容量是其一个关键的威廉希尔官方网站 参数,直接影响着其在各种应用中的性能表现。
    的头像 发表于 04-15 16:44 1609次阅读

    如何判断stm8s207是否已经运行?

    手里有一块扫地机的板子出现故障了,板子有一个芯片是stm8s207,用于按键和指示灯控制的,有故障灯一直闪,按键没有反应;不知道这stm8s芯片是否已经运行,怎么判断?谢谢大家
    发表于 04-03 07:58

    什么是输出极限电流?怎么测试电源模块的输出极限电流?

    输出电流极限测试是测试电源模块在输出限流点放开(PFC的过流保护也要放开)后所能输出的最大电流。目的是检测电源模块的限流点是否设计合理,器件选择是否合适。如果电源模块输出电流极限值较小
    的头像 发表于 03-29 13:49 719次阅读

    gpu是什么和cpu的区别

    ) GPU(Graphics Processing Unit)是一种专门设计用于处理图形和视频的处理器。最初,GPU的主要功能是处理计算机游戏和图形设计中的复杂图形操作,但随着威廉希尔官方网站 的发展,GPU的功能已经扩展到了科学计算、人工智
    的头像 发表于 02-20 11:24 1.9w次阅读

    LTM4644 SS管脚接地,是否可以达到禁止该通道输出的目的?

    手册中表示,SS管脚的对地电容可以调整上电时间。问:SS管脚接地,是否可以达到禁止该通道输出的目的? 因为我的板子已经生产完成RUN引脚上拉值高电平,并且无法割线修改为下拉来禁止该路输出。想要通过SS管脚接地来
    发表于 01-05 12:25

    传统数字系统的设计过程包括哪些

    传统数字系统的设计过程是一个复杂而严谨的过程,涉及到多个阶段和步骤。在这个过程中,设计师需要充分考虑系统的功能需求、性能指标、成本限制等因素,以确保设计出的数字系统能够满足实际应用的需求。本文将对
    的头像 发表于 12-30 15:46 886次阅读
    <b class='flag-5'>传统</b><b class='flag-5'>数字</b>系统的设计过程包括哪些