GPT-5出世需5万张H100!全球H100总需求43万张英伟达GPU陷短缺风暴

最后编辑时间:2023-12-02 13:18:19 来源:未知 作者:未知 阅读量: 未知

  GPT-5的训练,需要5万张H100加持。英伟达GPU已成为各大AI公司开发大模型的首选利器。然而,Sam Altaman自曝GPU很缺,竟不希望太多人用ChatGPT。

  OpenAI联合创始人兼职科学家Andrej Karpathy近日发文,阐述了自己对英伟达GPU短缺的看法。

  此前,摩根士丹利曾表示GPT-5使用25000个GPU,自2月以来已经开始训练,不过Sam Altman之后澄清了GPT-5尚未进行训。

  我们的GPU非常短缺,使用我们产品的人越少越好。 如果人们用的越少,我们会很开心,因为我们没有足够的GPU。

  在这篇名为「Nvidia H100 GPU:供需」文章中,深度剖析了当前科技公司们对GPU的使用情况和需求。

  文章推测,小型和大型云提供商的大规模H100集群容量即将耗尽,H100的需求趋势至少会持续到2024年底。

  Sam Altman说,OpenAI受到GPU的限制,这推迟了他们的短期计划(微调、专用容量、32k上下文窗口、多模态)。

  Karpathy 发表此番言论之际,大型科技公司的年度报告,甚至都在讨论与GPU访问相关的问题。

  上周,微软发布了年度报告,并向投资者强调,GPU是其云业务快速增长的「关键原材料」。如果无法获得所需的基础设施,可能会出现数据中心中断的风险因素。

  整体算来,全球公司需要约432000张H100。按每个H100约35k美元来计算,GPU总需求耗资150亿美元。

  包括OpenAI、Anthropic、DeepMind、谷歌,以及X.ai在内的所有大型实验室都在进行大型语言模型的训练,而英伟达的H100是无可替代的。

  因为它的效率高达3倍,但成本只有(1.5-2倍)。考虑到整体系统成本,H100的性能要高得多。

  从技术细节来说,比起A100,H100在16位推理速度大约快3.5倍,16位训练速度大约快2.3倍。

  但是,由于成本、容量、使用新硬件和设置新硬件的风险,以及现有的软件已经针对A100进行了优化,有些公司会犹豫是否要切换。

  而且爆料者还援引某位退休的半导体行业专业人士的说法,晶圆厂并不是台积电的生产瓶颈,CoWoS(3D堆迭)封装才是台积电的产能大门。

  主要的问题是 HBM。制造它是一场噩梦。由于 HBM 很难生产,供应也非常有限。生产和设计都必须按照它的节奏来。

  HBM3内存,英伟达几乎都是采用SK Hynix的产品,可能会有一部分三星的产品,应该没有镁光的产品。

  而且制造GPU还会用到包括稀土元素在内的许多其他材料和工艺,也会成为限制GPU产能的可能因素。

  我们今天正在处理本季度的供应,但我们也为下半年采购了大量供应。 我们相信下半年的供应量将大大高于上半年。 – 英伟达首席财务官 Colette Kress 在2023年2月至4月的财报电话会议上透露

  GPU的供应问题现在是一个恶性循环,稀缺性导致GPU拥有量被视为护城河,从而导致更多的GPU被囤积起来,从而加剧稀缺性。 – 某私有云负责人透露

  就像前边英伟达的高管提到的,H100的GPU所提供的算力,最终要通过各个云计算提供商整合到产业链中去,所以H100的短缺,一方面是GPU生成造成的。

  另一个方面,是算力云提供商怎么能有效地从英伟达获得H100,并通过提供云算力最终触及需要的客户。

  算力云提供商向OEM采购H100芯片,再搭建算力云服务出售给各个AI企业,使得最终的用户能够获得H100的算力。

  而这个过程中同样存在各种因素,造成了目前H100算力的短缺,而爆料的文章也提供了很多行业内部的信息供大家参考。

  像CoreWeave和Lambda这样的GPU云提供商从OEM厂家处购买,然后租给初创公司。

  超大规模的企业(Azure、GCP、AWS、Oracle)会更直接与英伟达合作,但也会向OEM处购买。这和游戏玩家买显卡的渠道似乎也差不多。但即使是购买DGX,用户也需要通过OEM购买,不能直接向英伟达下订单。

  他们通常会向Oracle等大型云租用算力,或者向Lambda和CoreWeave等私有云租用,或者向与OEM和数据中心合作的提供商(例如 FluidStack)租用。

  如果想要自己构建数据中心,需要考虑的是构建数据中心的时间、是否有硬件方面的人员和经验以及资本支出是否能够承担。

  租用和托管服务器已经变得更加容易了。如果用户想建立自己的数据中心,必须布置一条暗光纤线路才能连接到互联网 - 每公里 1 万美元。大部分基础设施已经在互联网繁荣时期建成并支付了费用。租就行了,很便宜。 – 某私有云负责人

  从租赁到自建云服务的顺序大概是:按需租云服务(纯租赁云服务)、预定云服务、托管云服务(购买服务器,与提供商合作托管和管理服务器)、自托管(自己购买和托管服务器))。

  网络:尽管大多数寻求大型 A100/H100 集群的初创公司都在寻求InfiniBand,AWS 和 Google Cloud 采用InfiniBand的速度较慢,因为它们用了自己的方法来提供服务。

  因为英伟达似乎倾向于为那些没有计划开发和他竞争的机器学习芯片的云提供更多的H100配额。(这都是猜测,不是确凿的事实。)

  而除了微软外的三大云公司都在开发机器学习芯片,来自AWS和谷歌的英伟达替代产品已经上市了,占据了一部分市场份额。

  就与英伟达的关系而言,可能是这样的:Oracle和AzureGCP和AWS。但这只是猜测。

  英伟达关心最终客户是谁,因此如果英伟达如果对最终的使用客户感兴趣的话,云计算提供平台就会得到更多的H100。

  是的,情况似乎是这样。NVIDIA 喜欢保证新兴人工智能公司(其中许多公司与他们有密切的关系)能够使用 GPU。请参阅 Inflection——他们投资的一家人工智能公司——在他们也投资的 CoreWeave 上测试一个巨大的 H100 集群。 – 某私有云负责人

  OpenAI 等一些公司推出了ChatGPT等产品,这些产品收到了市场的追捧,但他们依然无法获得足够的GPU。

  其他公司正在购买并且囤积GPU,以便将来能够使用,或者用来训练一些市场可能根本用不到的大语言模型。这就产生了GPU短缺的泡沫。

(责任编辑:管理)