0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看威廉希尔官方网站 视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

算力荒缓解,自主化智算还有必要吗?

脑极体 来源:脑极体 作者:脑极体 2024-12-23 11:01 次阅读

wKgZPGdo0nWALojkAAqPBb7uwEU656.jpg

2023年大炼模型兴起,全球范围内都出现了算力供不应求、一卡难求的情况。各地纷纷兴建数据中心、智算中心,来解决国产大模型的算力短缺问题。

今年算力市场又倒向了另一个方向,算力开始过剩和大量闲置了。

主要体现在,高端显卡囤积居奇的生意不好做了,“GPU倒爷”的朋友圈已经从“欲购从速,过时不候”,变成了“A100/H100滞销,帮帮我们”。而算力租赁市场,理想情况下的上架率应该是80%,但很多集群只能达到30%甚至更低,投入大量资金建设的算力闲置,租不出去。

于是一种声音开始甚嚣尘上,认为算力荒已经缓解了,供过于求,应该放慢自主化智算的建设。还有人说,智算中心建的太多了,大模型都用不完了。

发展自主化智算,到底还有没有必要?

wKgZPGdo0naAdNk3AAJhzAurqOk162.jpg

还记得2023年算力荒焦灼、智算建设突飞猛进的时候,倪光南院士曾提到过:各地盲目建设各种低水平智算中心,让人唏嘘不已,一定要警惕“威廉希尔官方网站 房地产”和“数字烂尾楼”。所谓“威廉希尔官方网站 房地产”,就是算力资源卖不出去,只能变成一堆放着服务器的砖头水泥房子,闲置在那里。

短短一年多时间,从算力短缺到算力过剩,究竟是怎么发生的?目前来看,闲置算力主要集中在三种情况:

1.用不起。英伟达的高端显卡GPU是AI训练的首选,2023年一度一卡难求。以N卡为主的智算资源闲置,一是因为巨头们此前已经大量囤积采购了GPU,需求减少;二是炒作之后价格昂贵,即使价格回落,中小企业还是用不起。在很多讨论“算力过剩”的评论区,我们总能看到“降价试试”的留言,说明高端AI算力的需求仍在,只是昂贵的N卡被价格劝退了。

2.不好用。国产卡组成的算力集群,也存在上架率不高、资源闲置的问题,主要是不好用。因为国产卡的集中度不高,一个千卡或万卡集群,往往是由各类国产算力卡组成的,异构算力之间的协同调度,涉及大量工程化细节,没有做好就无法开箱即用。勉强用了,又时不时出现业务中断、算效不高、恢复训练慢等各种问题,导致客户流失。这类被迫闲置的国产算力,正是没有考虑配套,盲目建设的低水平智算中心。

3.用不上。“百模大战”之后,企业不再大炼模型,预训练的算力需求也就大幅下降,算力市场开始转向以推理算力为主。但推理市场的爆发,需要一个过程,目前AI的行业渗透率还比较低,总体不到10%,很多企业对AI的投入以尝试为主,还没有大规模爆发。所以,训练用算力开始出现闲置,而推理用算力还未大规模崛起,因此短缺问题尚未完全显现。

低水平算力的闲置与过剩,再一次警醒我们:一个繁荣健康的算力市场,关键不是建出来,而是用起来。

wKgZPGdo0naAC-z0AAH4xXRpIuk209.jpg

这种情况下,仍然大力发展自主化智算,还有必要吗?

我们认为,这个问题的答案不该有犹豫,要旗帜鲜明地,鼓励自主化智算基础设施的继续建设、加速建设。

首先,从长期看,国内智算属于后发,基础仍然薄弱。

中国智算的进步速度是很快的,但也要客观看到,美国这样的IT先行者,从20世纪90年代以来就在IT建设上大力投入。根据彼得森国际经济研究所的消息,在2024年美国在电子制造业建设方面(主要是芯片)的投资,就超过了1996年至2020年(24年的时间跨度)的总投资。而产业界,xAI、Meta、OpenAI等海外AI巨头,都在积极布局十万卡、五十万卡规模的智算集群。

所以,国内自主化智算近年来的发展虽然迅猛,也是在积极补课,打牢基础。这时候如果停止,不仅会前功尽弃,还会让中美在AI基础设施上的差距进一步拉大。

从近期看,自主化AI算力需求仍然没有得到充分满足,算力荒仍在。

一方面,海外AI算力进口受到限制,极不稳定。目前,国内AI训练芯片市场英伟达占据了80%~80%的市场份额,要避免威胁供应链安全,这种情况必须尽快改变。上海的“算力浦江”智算行动实施方案(2024—2025年)要在2025年,实现新建智算中心的国产算力芯片使用占比超过50%;《北京市算力基础设施建设实施方案(2024—2027年)》则提出,2027年要具备100%自主可控智算中心建设能力。

三年左右,从不到20%发展到100%。所以,如今的自主化智算不是太多了,而是还不够。

与此同时,算力需求仍在增长。大模型的规模法则仍在继续,以Sora为代表的视频生成模型对算力的需求量是LLM大模型的数倍,已经出现了“一栋楼放不下一个模型”“一个模型需要多个集群”的情况,超万卡智算中心是必不可少的基础设施,目前国内的十万卡集群还远远不足。

此外,大炼模型的阶段虽然结束了,但基础模型的市场集中度提高和能力提高,又会释放AI应用需求,促进AI的行业渗透率、普及率,导致AI推理算力的需求爆发,急需要更多高质量算力来满足。目前部分国产AI算力集群的利用率极高,西安昇腾智能科技有限公司的人工智算中心算力使用率就高达98.5%;曙光在长沙的5A级智算中心,也吸引上百家企业入驻,实现万余个商业应用接入。因此,随着产业智能化升级的继续推进,国产AI算力荒不是已经解决,而是从现在开始重视和应对。

互联网产业的核心,当然不是宽带和机房,但没有“宽带高速公路”,就没有美国互联网经济的爆发;移动互联网的核心,也不是基站,但没有广泛覆盖的4G基站,就没有智能手机和移动应用软件的兴起。AI大模型也是一样, AI作为一种依附在基础设施之上的软件威廉希尔官方网站 ,核心不是智算,但没有自主化智算,国内AI绝不可能独善其身、独自蓬勃发展。

因此,自主化智算并不存在过剩,更不该就此放慢发展。

wKgZPGdo0niAeCxJAAJVXfK1gHM154.jpg

综上,“国内AI算力过剩”,是个假问题,“如何合理地推进自主化智算的建设”,才是真问题。

解决这个真问题,国内智算产业已经来到了承上启下的新阶段。不仅要追求把智算中心“建起来”,还要能运营好、用起来。

因此,智算厂商的竞争,也从售卖硬件资源与智算解决方案,转变为多维度、综合性、长期服务的竞争。比如华为昇腾AI全栈、中科曙光的“立体计算”、宁畅的“全局智算”、联想的“万全生态”,新华三的“1+N”智算等,以更全面的能力,支撑自主化智算的建设运营。

wKgZO2do0niAR8yCAABY6QimnW4345.jpg

追求全面,并不意味着胡子眉毛一把抓,目前来看,智算厂商们主要集中解决自主化AI算力的几个痛点问题:

1.异构问题。目前,国产AI芯片还无法规模化出货,市场集中度较低,因此都是以混合算力的形式,来加入智算集群。多元异构算力的协同调度、管理、算效、业务可靠性等,面临很多威廉希尔官方网站 挑战。如果一个企业或开发者,要针对ABCD不同厂商的卡进行适配开发,是不可能的。所以,就需要智算厂商提供相应的系统平台,屏蔽底层异构硬件的复杂性,让大家用好国产算卡。比如联想的万全异构智算平台,实现异构化AI算力的管理与调配;新华三面向异构智算的智能管理平台,一站式应对多样化的AI应用场景。

2.算效问题。解决“低质量算力过剩,自主化高质量算力不足”的结构性问题,需要进一步提高国产AI的性能。面对工艺制程的限制,可以通过软硬件系统的无缝配合,从而实现国产算卡性能的充分释放。以昇腾为例,就与昇思紧密结合,为各类智算场景提供高性能的自主化AI算力,深圳鹏城实验室的“鹏城云脑Ⅱ”就依托昇腾实现了中国首个自主可控的E级智能算力平台,可以提供不低于1000Pops的整机AI计算能力。

3.运营问题。如今,一些地方在智算中心建设之前,开始提出上架率、收益率等要求,需要保证项目投运后有一定的使用率。同时,也会要求建设方提供设计、使用、运营等一体化服务,避免智算中心因无人运营而成为“数字烂尾楼”。以用促建、以服促用,已经是自主化智算发展的必然潮流。比如新华三与杭州市合作,打造“图灵小镇”,培育AIGC产业和数字人才;中科曙光“立体计算”主张“算力建设、应用赋能、生态共生”三位一体,推动多元算力向新质生产力转化,目前已经在5A级智算中心落地实践。

wKgZPGdo0nmAP-crAAM0iGTYFJI731.jpg

回顾这一年多来,国内智算的发展突飞猛进,取得了举世瞩目的成绩,我们不必再为算力荒而忧心忡忡。但人无远虑必有近忧,AI算力的自主化之路不能就此戛然而止,而要一鼓作气,再加把劲,把已经取得的成果夯实,为接下来的智能浪潮做好准备。

避免低质量算力过剩,与加速自主化智算发展,这两件事可以并行不悖,也应该理性分开看待。

wKgZO2do0nqAIjXLAAHUxLhXXGs779.jpg

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    30757

    浏览量

    268902
  • 算力
    +关注

    关注

    1

    文章

    966

    浏览量

    14794
收藏 人收藏

    评论

    相关推荐

    调度的基础知识

    编者按 “调度”的概念,这几年越来越多的被提及。刚听到这个概念的时候,我脑海里一直拐不过弯。作为底层芯片出身的我,一直认为:是硬件的服务器和集群,他在某个地方,就是固定的;根本
    的头像 发表于 11-27 17:13 155次阅读
    <b class='flag-5'>算</b><b class='flag-5'>力</b>调度的基础知识

    基础篇:从零开始了解

    即计算能力(Computing Power),狭义上指对数字问题的运算能力,而广义上指对输入信息处理后实现结果输出的一种能力。虽然处理的内容不同,但处理过程的能力都可抽象为。比
    的头像 发表于 11-15 14:22 549次阅读
    <b class='flag-5'>算</b><b class='flag-5'>力</b>基础篇:从零开始了解<b class='flag-5'>算</b><b class='flag-5'>力</b>

    企业AI租赁是什么

    企业AI租赁是指企业通过互联网向专业的提供商租用所需的计算资源,以满足其AI应用的需求。以下是对企业AI
    的头像 发表于 11-14 09:30 508次阅读

    GPU开发平台是什么

    随着AI威廉希尔官方网站 的广泛应用,需求呈现出爆发式增长。AI租赁作为一种新兴的服务模式,正逐渐成为企业获取
    的头像 发表于 10-31 10:31 166次阅读

    本源量子等向北京“金融量子云实验平台”提供自主量子

    近日,由本源量子提供自主量子主的“金融量子云实验平台”正式上线,该平台由北京金融科技产业联盟主办,本源量子公司联合共建,云端可提供量子真机
    的头像 发表于 10-30 08:05 183次阅读
    本源量子等向北京“金融量子云实验平台”提供<b class='flag-5'>自主</b>量子<b class='flag-5'>算</b><b class='flag-5'>力</b>

    大模型时代的需求

    现在AI已进入大模型时代,各企业都争相部署大模型,但如何保证大模型的,以及相关的稳定性和性能,是一个极为重要的问题,带着这个极为重要的问题,我需要在此书中找到答案。
    发表于 08-20 09:04

    中科曙光入选2024服务产业图谱及服务产品名录

    近日,中国信通院公布首个《服务产业图谱(2024年)》及《服务产品名录(2024年)》。曙光智构建的全国一体
    的头像 发表于 08-06 14:23 680次阅读

    曙光携手“互联公共服务平台”提高全国匹配效率

    的互联互通,助力“互联公共服务平台”功能完善,实现全国一体体系建设目标。           按规划,“
    的头像 发表于 07-16 15:45 682次阅读

    力系列基础篇——与计算机性能:解锁超能力的神秘力量!

    在《力系列基础篇——101:从零开始了解》中,相信各位粉丝初步了解到人工智能的“发动机”和核心驱动力:
    的头像 发表于 07-11 08:04 104次阅读
    <b class='flag-5'>算</b>力系列基础篇——<b class='flag-5'>算</b><b class='flag-5'>力</b>与计算机性能:解锁超能力的神秘力量!

    基础设施的风险与挑战

    编者按网络有一个美好的愿景,就是希望网,能像电力和电网一样:
    的头像 发表于 06-13 08:27 541次阅读
    <b class='flag-5'>算</b><b class='flag-5'>力</b>基础设施的风险与挑战

    力系列基础篇——101:从零开始了解

    相信大家已经感受到,我们正处在一个人工智能时代。如果要问在人工智能时代最重要的是什么?那必须是:
    的头像 发表于 04-24 08:05 1002次阅读
    <b class='flag-5'>算</b>力系列基础篇——<b class='flag-5'>算</b><b class='flag-5'>力</b>101:从零开始了解<b class='flag-5'>算</b><b class='flag-5'>力</b>

    十问:超,通存比

    邬贺铨指出,现有测算方法难以精准衡量。国内企业服务器的出货量并不等于国内市场的使用量,而且进口国外的服务器未统计在内;服务器出货量也不等于上架量,更不等于已经加电使用量。通常服务器集群的
    的头像 发表于 04-13 11:40 4467次阅读

    聚焦全国一体体系构建,忆联以强大存“引擎”释放潜能

    是数字时代的生产,为数字经济与实体经济深度融合提供了强大支持。在不久前结束的全国两会中,“全国一体
    的头像 发表于 03-22 18:13 524次阅读
    聚焦全国一体<b class='flag-5'>化</b><b class='flag-5'>算</b><b class='flag-5'>力</b>体系构建,忆联以强大存<b class='flag-5'>力</b>“引擎”释放<b class='flag-5'>算</b><b class='flag-5'>力</b>潜能

    智能规模超通用,大模型对智能提出高要求

    电子发烧友网报道(文/李弯弯)是设备通过处理数据,实现特定结果输出的计算能力,常用FLOPS作为计量单位。FLOPS是Floating-point Operations Per Second
    的头像 发表于 02-06 00:08 6317次阅读

    大茉莉X16-P,5800M大称王称霸

    Rykj365
    发布于 :2024年01月25日 14:54:52