Nvidia的AI晶片H100有多神?为何一片难求?

2016 年创立的 CoreWeave 是如何拿到全球最硬通货 – H100显卡,而这款显卡有什麽迷人之处,让全球的科技大厂趋之若鹜。
(前情提要: 挖矿一天3000镁!比特大陆进军Kaspa推ASIC矿机KS3,显卡矿工全哭了)
(背景补充:Joeman、草爷投资显卡挖矿为何惨赔?专家曝「被当韭菜割」三大原因 )

本文目录

2023 年 8 月 3 日,华尔街和矽谷联袂奉上了一件震撼业界的大事:让一家创业公司拿到 23 亿美元的债务融资,抵押物则是当前全球最硬的通货 —— H100 显示卡 。

这个大事件的主角叫做 CoreWeave,主营业务是 AI 私有云服务,简单说就是通过搭建拥有大量 GPU 算力的资料中心,来给 AI 创业公司和大型商业客户提供算力基础设施。CoreWeave 累计融资 5.8 亿美金,目前是 B 轮,估值 20 亿美元。

CoreWeave 成立於 2016 年,创办人是三个华尔街大宗商品交易员。刚开始公司的主营业务只有一个:挖矿,采购大量 GPU 来组建矿机中心, 尤其是在币圈低潮时,公司会逆周期囤大量显示卡,也因此跟辉达建立了铁杆的革命友谊。

CoreWeave 三位共同创办人

2019 年,CoreWeave 开始把这些矿机改造成企业级资料中心,向客户提供 AI 云服务,刚开始的生意也不温不火,但 ChatGPT 诞生之後,大模型的训练和推理每天都在消耗大量算力,已经拥有数万张显示卡(当然未必是最新型号)的 CoreWeave 嗖的一下起飞,门口挤满了客户和风投。

但令人感到蹊跷的是:CoreWeave 累计一共只融到了 5.8 亿美金,帐面 GPU 的净值不会超过 10 亿美元,甚至公司整体估值也只有 20 亿美元,但为何却能通过抵押借到 23 亿美元呢?一向精於算计、热衷对抵押物价值膝盖斩的华尔街,为何如此慷慨呢?

原因极有可能是:CoreWeave 虽然帐上还没这麽多显示卡,但它拿到了辉达的供货承诺,尤其是 H100。

CoreWeave 跟辉达的铁杆关系已经是矽谷公开的秘密。 这种铁杆根源於 CoreWeave 对辉达的毫无二心的忠诚和支援 —— 只用辉达的卡、坚决不自己造芯、显示卡卖不动时帮辉达囤卡。 对黄仁勳来说,这种关系的含金量,远超跟微软、Google 和特斯拉的那些塑料友情。

因此,尽管辉达 H100 十分紧缺,辉达还是把大量新卡分配给了 CoreWeave,甚至不惜限制对亚马逊和Google等大厂的供应。黄仁勳在电话会议里夸赞:

「一批新的 GPU 云服务提供商会崛起,其中最着名的是 CoreWeave,他们做得非常好。」

而在喜提 23 亿美金的一周前,CoreWeave 就已对外宣称,将耗资 16 亿美元在德州建立一个占地面积 42,000 平方米的资料中心。仅凭藉跟辉达之间的关系和优先配货权,CoreWeave 就可以把建资料中心的钱从银行里借出来 —— 这种模式,让人想起了拿地後立马找银行贷款的地产商。

所以可以这样说:当下一份 H100 的供货承诺,堪比房地产黄金时代的一纸土地批文。

一卡难求的 H100

今年 4 月在接受采访时,马斯克抱怨道 :

「现在似乎连狗都在买 GPU。」

很讽刺的是,特斯拉早在 2021 年就释出了自研的 D1 晶片,由台积电代工,采用 7nm 工艺,号称能替代当时辉达主流的 A100。但 2 年过去了,辉达推出了更为强大的 H100,而特斯拉的 D1 没有後续迭代,因此当马斯克试图组建自家的人工智慧公司时,还是得乖乖地跪在黄老爷门前求卡。

H100 在去年 9 月 20 日正式推出,由台积电 4N 工艺代工。相较於前任 A100,H100 单卡在推理速度上提升 3.5 倍,在训练速度上提升 2.3 倍;如果用伺服器丛集运算的方式,训练速度更是能提高到 9 倍,原本一个星期的工作量,现在只需要 20 个小时。

GH100 架构图

相比 A100,H100 的单卡价格更贵,大约是 A100 的 1.5~2 倍左右,但训练大模型的效率却提升了 200%,这样这算下来的 「单美元效能」 更高。 如果搭配辉达最新的高速连线系统方案,每美元的 GPU 效能可能要高出 4-5 倍,因此受到客户疯狂追捧。

抢购 H100 的客户,主要分成三类:

在这三类客户中,微软 Azure 至少有 5 万张 H100,Google手上大概有 3 万张,Oracle 大概有 2 万张左右,而特斯拉和亚马逊手上也至少拿有 1 万张左右,CoreWeave 据称有 3.5 万张的额度承诺(实际到货大概 1 万)。其他的公司很少有超过 1 万张的。

这三类客户总共需要多少张 H100 呢?根据海外机构 GPU Utils 的预测,H100 当前需求大概 43.2 万张。 其中 OpenAI 需要 5 万张来训练 GPT-5,Inflection 需求 2.2 万张,Meta 则是 2.5 万张(也有说法是 10 万张),四大公有云厂商每家都需要至少 3 万张,私有云行业则是 10 万张,而其他的小模型厂商也有 10 万张的需求 。

辉达 2023 年的 H100 出货量大概在 50 万张左右 ,目前台积电的产能仍在爬坡,到年底 H100 一卡难求的困境便会缓解。

但长期来看,H100 的供需缺口会随着 AIGC 的应用爆发而继续水涨船高。根据金融时报的报导,2024 年 H100 的出货量将高达 150 万张 – 200 万张,相比於今年的 50 万张,提升 3-4 倍 。

而华尔街的预测则更为激进:美国投行 Piper Sandler 认为明年辉达在资料中心上的营收将超过 600 亿美元(FY24Q2:103.2 亿美元),按这个资料倒推,A+H 卡的出货量接近 300 万张。

还有更夸张的估计。某 H100 伺服器最大的代工厂(市占率 70%-80%),从今年 6 月开始就陆续出货了 H100 的伺服器,7 月份产能陆续爬坡。一份最近的调研显示,这家代工厂认为 2024 年 A+H 卡的出货量会在 450 万张~500 万张之间。

这对辉达意味着 「泼天的富贵」,因为 H100 的暴利程度,是其他行业人难以想像的。

比黄金更贵的显示卡

为了搞清 H100 有多暴利,我们不妨把它的物料成本(Bill of Materials, BOM)彻底拆解出来。

如图所示,H100 最通用的版本 H100 SXM 采用的是台积电 CoWoS 的 7 晶粒封装,6 颗 16G 的 HBM3 晶片分列两排紧紧围绕着中间的逻辑晶片。

而这也构成了 H100 最重要的三个部分:逻辑晶片、HBM 储存晶片、CoWoS 封装 ,除此之外,还有诸如 PCB 板以及其他的一些辅助器件,但价值量不高。

H100 拆机图

核心的逻辑晶片尺寸是 814mm^2,产自台积电最先进的台南 18 号工厂,使用的工艺节点则是 「4N」,虽然名字上是 4 打头,但实际上是 5nm+。由於 5nm 的下游,手机等领域的景气度不佳,因此台积电在保供逻辑晶片上没有任何问题。

而这块逻辑晶片是由 12 寸(面积 70,695mm^2)的晶圆切割产生,理想状态下可以切出 86 块,但考虑到 「4N」 线 80% 的良率以及切割损耗,最後一张 12 寸晶圆只能切出 65 块的核心逻辑晶片。

这一块核心逻辑晶片的成本是多少呢?台积电 2023 年一片 12 寸的晶圆对外报价是 13,400 美元,所以折算下来单块大概在 200 美元左右。

接下来是 6 颗 HBM3 晶片,目前由 SK 海力士独供 ,这家起源於现代电子的企业,2002 年几乎要委身与美光,凭藉着政府的输血以及逆周期上产能的战略,如今在 HBM 的量产技术上至少领先美光 3 年(美光卡在 HBM2e,海力士 2020 年中期量产)。

HBM 的具体价格,各家都讳莫如深,但根据韩媒的说法,HBM 目前是现有 DRAM 产品的 5-6 倍。 而现有的 GDDR6 VRAM 的价格大概是每 GB3 美元,如此推算 HBM 的价格是在每 GB 15 美元左右。 那一张 H100 SXM 在 HBM 上的花费就是 1500 美元。

虽然今年 HBM 的价格不断上涨,辉达、Meta 的高管也亲赴海力士 「督工」,可下半年三星的 HBM3 就能逐步量产出货,再加上韩国双雄祖传的扩张血脉,想必到了明年 HBM 就不再是瓶颈。

而真正是瓶颈的则是台积电的 CoWoS 封装,这是一种 2.5D 的封装工艺。 相比於直接在晶片上打孔(TSV)、布线(RDL)的 3D 封装,CoWoS 可以提供更好的成本、散热以及吞吐频宽,前两者对应 HBM,後两者则是 GPU 的关键。

所以想要高存力、高算力的晶片,CoWoS 就是封装上的唯一解。辉达、AMD 两家的四款 GPU 都用上了 CoWoS 就是最好的佐证。

CoWoS 的成本是多少呢?台积电 22 年财报披露了 CoWoS 工艺占总营收 7%, 於是海外分析师 Robert Castellano 根据产能,以及裸晶的尺寸推算出封装一块 AI 晶片能给台积电带来 723 美元的营收 。

因此把上述最大的三块成本项加总,合计在 2,500 美元左右,其中台积电占了 $1,000(逻辑晶片 + CoWoS)左右,SK 海力士占了 1500 美金(未来三星肯定会染指),再算上 PCB 等其他材料, 整体物料成本不超过 3000 美金。

那 H100 卖多少钱呢?35000 美金,直接加了一个零,毛利率超过 90%。 过去 10 年辉达毛利率大概在 60% 上下,现在受高毛利的 A100/A800/H100 的拉动,今年 Q2 辉达的毛利率已经站上了 70%。

这有点反常识:辉达严重依赖台积电的代工,後者地位无人撼动,甚至是唯一能卡辉达脖子的核心环节。但这麽一块 3.5 万美金的卡,制造它的台积电只能拿 1000 美金,而且只是收入,不是利润。

不过,用毛利率来定义暴利,对於晶片公司意义不大,要是从沙子开始算,那毛利率更高。一张 4N 工艺的 12 寸晶圆,台积电卖给谁都差不多是 1.5 万美金一片,辉达能加个零卖给客户,自然有其诀窍。

这个诀窍的秘密在於:辉达本质上,是一个伪装成硬体厂商的软体公司。

软硬一体的护城河

辉达最强大的武器,就藏在毛利率减去净利率的那一部分。

在本轮 AI 热潮之前,辉达的毛利率常年维持在 65% 上下,而净利率通常只有 30%。而今年 Q2 受高毛利的 A100/A800/H100 的拉动,毛利率站上 70%,净利率更是高达 45.81%。

近 3 年辉达 (NVIDIA) 单季度毛利率与净利率

辉达目前在全球有超过 2 万名员工,大都是高薪的软硬体工程师,而根据美国猎聘 Glassdoor 的资料,这些职位的平均年薪基本都高於 20 万美元 / 年。

近十个财年辉达研发费用率

在过去的十年里,辉达研发支出的绝对值保持着高速增长,而研发费用率稳态下也维持在 20% 以上。当然,如果某一年的终端需求爆发,比如 2017 年的深度学习、21 年的挖矿、以及今年的大语言模型,营收的分母骤然擡升,研发费用率就会短暂的跌倒 20%,相应地利润也会非线性暴增。

而在辉达研发的这麽多专案中最关键的无疑是 CUDA。

03 年为解决 DirectX 程式设计门槛过高的问题,Ian Buck 的团队推出了一款名为 Brook 的程式设计模型,这也是後来人们常说的 CUDA 的雏形。06 年 Buck 加入辉达,并说服黄仁勳研发 CUDA 。

因为支援 C 语言环境下的平行计算,使得 CUDA 一跃成为工程师的首选,也让 GPU 走上了通用处理器(GPGPU)的道路。

在 CUDA 逐渐成熟之後,Buck 再次劝说黄仁勳,让辉达未来所有的 GPU 都必须支援 CUDA。06 年 CUDA 立项,07 年推出产品,当时辉达的年营收仅有 30 亿美元,却在 CUDA 上花费 5 亿美金,到了 17 年时,单在 CUDA 上的研发支出就已超过了百亿。

曾经有位私有云公司的 CEO 在接受采访时说过,他们也不是没想过转去买 AMD 的卡,但要把这些卡除错到正常运转至少需要两个月的时间 。 而为了缩短这两个月,辉达投入上百亿走了 20 年。

晶片行业浮沉大半个世纪,从来没有一家企业像辉达一样,既卖硬体、也卖生态,或者按黄仁勳的话来说:「卖的是准系统」。 因此,辉达对标的也的确不是晶片领域的那些先贤们,而是苹果 —— 另一家卖系统的公司。

从 07 年推出 CUDA,到成为全球最大的印钞厂,辉达也并不是没有过对手。

08 年当时晶片届王者英特尔中断了与辉达在集显专案上的合作,推出自己的通用处理器(GPCPU),打算在 PC 领域 「划江而治」。可辉达在随後几年的产品迭代中,硬是把自家处理器推广到太空、金融、生物医疗等需要更强大计算能力的领域,於是 10 年英特尔眼看打压无望,被迫取消了独立显示卡计划。

09 年苹果的开发团队推出了 OpenCL,希望能凭藉着通用性在 CUDA 身上分一杯羹。但 OpenCL 在深度学习的生态上远不如 CUDA,许多学习框架要麽是在 CUDA 释出之後,才会去支援 OpenCL,要麽压根不支援 OpenCL。於是在深度学习上的掉队,使得 OpenCL 始终无法触及更高附加值的业务。

15 年 AlphaGo 开始在围棋领域初露锋芒,宣告人工智慧的时代已经来临。此时的英特尔为了赶上这最後一班车,把 AMD 的 GPU 装入自己的系统晶片内。这可是两家公司自上世纪 80 年代以来的首次合作。可如今 CPU 老大、老二 + GPU 老二的市值之和仅是 GPU 老大辉达的 1/4。

从目前看来,辉达的护城河几乎是牢不可摧。即使有不少大客户笑里藏刀,私下里在研发自己的 GPU,但凭藉着庞大的生态和快速的迭代,这些大客户也无法撬动帝国的裂缝,特斯拉就是明证。辉达的印钞机生意,在可见的未来还会持续。

可能唯一让黄仁勳萦绕乌云的地方,便是那个客户众多 、需求旺盛但 H100 卖不进去、但人家又在咬牙攻坚的地方 —— 这个地方全世界只有一个。

📍相关报导📍

AI大未来!这6个加密专案加入了 NVIDIA Inception 计划

市场快读》Nvidia陪美股全线跳水;比特币无短期利好、投资人止步观望

Nvidia遭殃!美国拟禁令AI晶片输出中东,完成金砖国封锁网

Leave a Reply

Your email address will not be published. Required fields are marked *