英伟达为中国“降规”:H800变身为H20,技术如何实现、性能够用吗?

10月17日,美国更新出口管制标准,要求先进芯片性能超过特定阈值,即需要申请出口许可。在严苛的限制条件下,英伟达针对中国市场的特供版H800、A800两款芯片也面临禁售,以下为美国商务部对先进芯片性能的划定标准:

●总算力之和≥4800TOPS,

●总算力≥1600,且性能密度≥5.92;

●2400≤总算力<4800,且1.6<性能密度<5.92;

●总算力≥1600,且3.2≤性能密度<5.92。

面对新的管制条例,英伟达给了两个解法:其一,沟通美国商务部申请许可,给特定的中国客户“开白”;其二,针对新的管制条例,再次定制全新的特供版本。

刚刚举办的第三财季电话会议上,英伟达首席财务官科莱特·克雷斯确认了这一消息。克雷斯表示,英伟达正在与中东和中国的一些客户合作,以获得美国政府销售高性能产品的许可。此外,英伟达正试图开发符合政府政策且不需要许可证的新数据中心产品。

01 H800是如何“阉割”成为H20?

英伟达试图开发的新的特供版,即业内盛传的H20、L20等产品,最新消息显示,相关产品的上市计划已经延后至2024年第一季度。

问题在于,H20等全新特供芯片的研发、设计、生产,完全跳出了常规芯片的节奏,英伟达是如何在短时间内拿出这套特供解决方案?

它的答案就是我们这篇文章要讨论的关键问题之一:后道点断生产工艺,用大家更为常用的词汇总结即——阉割。

HGXH20-L20PCIe-L2PCIe-产品规格

英伟达为中国“降规”:H800变身为H20,技术如何实现、性能够用吗?

按正常的设计、生产周期和产品发布节奏来推断,特供中国市场的H20/ L20等型号的芯片在这个时间节点发布,不太可能是重做光罩、重新投片的产物,一个相对合理的推论——即它们是通过半导体后道的物理点断工艺的改造+再封装,进而推出的新SKUs。

点断工艺是半导体制造的后道工序(BEOL)中的改造方法,可以在无需重做光罩的前提下使用一些管/线修补工艺,包括表面激光点断、CoWoS层面点断,甚至通过隧道镜手工雕线

英伟达为中国“降规”:H800变身为H20,技术如何实现、性能够用吗?

可以假定一下这样的场景,代工英伟达H800的台积电南科Fab18A、台中Fab15B和台中先进封装5厂的洁净室里,此前降规生产的几批次裸片,还没来得及切割、镀上金属线和电极,还未封装成H800和L40S,转而通过后道点断生产工艺再封装成H20、L20。

02 表面激光点断是半导体制造传统艺能

行业惯例来说,一颗数字逻辑芯片的缓存大小(CacheSize)、底层物理互连(PHYchannels)都可以通过在后道封测环节重修/点断做失效屏蔽处理的,尤其是针对低分数裸片的改造方法算是几十年的传统艺能,例如早期的奔腾、赛扬处理器的重要区别之一就是点断缓存

倘若是局部微小部分,曾经可以手工完成(相当于微雕);面积稍大的部分,可以重新设计Layout预留点断位置,再由机器完成点断失效。

一种内置数字显示的温度传感器设计版图

英伟达为中国“降规”:H800变身为H20,技术如何实现、性能够用吗?

实操上,通常的晶圆厂都会配置专业设备,由激光直接在裸片上切割线路/沟槽,而在亚利桑那钱德勒市的Intel Fab42工厂里,还有直接在专用隧道镜下面手工雕刻晶体管的设备,宣称是原子尺度的,不同于寻常的扫描隧道显微镜,几年前Intel有个宣传视频,提到这台设备,据传全球持证的操作手不超过14人。

其实在平面晶体管以前,显微镜手雕不算是高难度动作,但进入FinFET以后,由于垂直方向的3D栅极结构,手雕设备的代价和操作员就变得遥不可及了。

具体到H20/L20,这两款特供产品,是如何通过H800、L40S降规而来?可以先看看相关参数:

H20:对应H100/800系列,Hopper架构(HBM3、2.5D CoWoS封装、NVLink)

L20:对应L40S系列,Ada Lovelace架构(GDDR6,2D InFO封装,PCIe Gen4)

*注:固件相应修改;

回顾H100/H800相同架构之间比较关键的底层物理互连(SerDes PHY)的差异,H100降规阉割成H800,可以通过局部物理点断失效处理来实现;但相比之下,H20虽然与前面两款产品同构,但推测割掉的Dark Si面积可能较大,不确定常规点断操作是否不值得,也许需要重新做Layout

但是除了底层物理层互连(SerDes PHY)的区别,还有双精度浮点计算(FP64)单元面积、张量核(用于矩阵、卷积类计算任务)单元面积的区别,这部分不好定论,但可以推测是类似利用物理冗余设计并加以屏蔽的操作,毕竟如今的设计方法学都是推动模块化的,流片后的测试原本就会有70分 die与90分 die的区别,以及GPU芯片上也不止一个FP64,局部操作物理点断失效也是合理的。

03 设计冗余为点断创造条件,也是大厂基操

举个例子:A、如今市面仍可见的Intel F系列CPU,就是点断显核的70分die;B、Apple Si的前两代,官宣8核NPU,实际有9个,就是设计冗余

以上这些,在晶圆制造工序中也算是基本操作,特别是中试厂/线,Alpha – Beta流片的过渡期间,有小错就会直接手改,不会返回修改掩膜重新流片的。

从芯片设计者的角度来看,设计冗余度是在芯片开发流程中原本存在的,因为前道光刻过程是强调高良率的,具体到失效晶体管数,测试环节判断模块级别的良率,坏点可以直接电路割断,后续引线、封盖工艺流程都不变

例如3年前,Intel曾向市场推出过不带显核的F系列CPU,就是物理降规/阉割的产物,点断显核,重新封装销售。但是该款芯片偶尔耗电巨大,经用户投诉,建环境验证后发现就是原本通过物理点断失效的显核在接电之后不受控制而导致的莫名电源故障。

这个案例反映的情况就是我们上文所讲的,同一条流水线,经过点断失效的芯片,后续的导线/引脚和封装过程不变,可以继续销售。尤其早期Intel 10nm的良率很低,积压很多这样的低分片,才会把显核失效的芯片加印F标继续销售。

如今这个“冗余度”可能有很大空间,毕竟H100已然是814平方毫米的大芯片,几乎接近光罩尺寸边缘(26mm*33mm=858mm2)。而如今发布的H20降规型号,大概是H100 15%的性能,但是其物料成本几近相同。

04 封装层面点断可操作性、经济性更好

除了在逻辑芯片表面的激光点断工艺之外,还有针对某些特殊位置的点断要求,比如CoWoS中介层的点断

CoWoS作为台积电的2.5D封装方案,可以使得多颗芯片封装到一起,互连和内存等器件均通过硅中介层互联,达到了封装体积小,功耗低,引脚少的效果。

相比表面激光点断,在CoWoS的前道部分——即CoW部分是硅通孔和中介层——在该层面操作点断,做差异化,反而更经济,也更容易保证良率。因为算力逻辑芯片和I/O芯片是分列的,可以屏蔽底层物理互连的通道,也可以缩减HBM3内存性能,而且在硅中介层修改差异化更容易,相比全部在逻辑芯片上修改的代价更低,因为中介层上操作的线宽精度可以较低,甚至点断最上面那层金属的线宽即可。

但是,CoWoS中介层上面是只能够屏蔽物理互连和HBM内存,但是无法屏蔽FP64单元、Tensor core单元这样的计算逻辑芯片面积,这就需要补充用到前文所说的在逻辑die表面点断失效的方法。

另外,正常情况下,物理点断失效的电路是不能从外部第三方察觉的,且工艺不可逆;尤其如今芯片都是十几层金属,裸片的表面修改了,上面金属层是看不穿的,除非是用到反工程的透视扫描。

综上,我们看到进一步特供/降规生产的H20/L20等型号,可以判断是H800和L40S的裸片的后道物理点断工序的改造产物,同时重新封装、重新修改固件,成为新的SKUs。

回想Nvidia之前积压的、原本销往中国的50亿美元的GPU产品尚未交付,如今返厂做了后道改造才得以如此快速的发布新的SKU,那么猜测国内厂商的50亿美元订单也许会转换为这三个型号。

05 “阉割”后的H20的能与不能

核心AI芯片相关参数及出口管制情况,APPLIES对应受管制,DOESN’TAPPLY对应不受管制

英伟达为中国“降规”:H800变身为H20,技术如何实现、性能够用吗?

如下是针对H20与H100/H800/A100的产品横向比较,比较维度包括“产品规格、单卡和集群算力效能、物料成本、定价体系”等四个方面:

英伟达为中国“降规”:H800变身为H20,技术如何实现、性能够用吗?

集群综合算力方面,H100/H800目前是AIDC算力集群的顶流部署;其中H100理论扩容极限是5万张卡集群,最多可达10万P算力;H800最大集群是2-3万张卡,合计4万P算力;A100最大集群是1.6万张卡,合计9600P算力。

然而对于H20,其集群的理论扩容极限是5万张卡,以单卡算力0.148P(FP16/BF16)计算,集群合计提供7400P算力,远低于H100/H800/A100。

基于NVIDIAH800的8卡服务器模组

英伟达为中国“降规”:H800变身为H20,技术如何实现、性能够用吗?

同时,基于算力与通信均衡度预估,5万张H20合理的整体算力中位数约为3000P左右,倘若H20面对千亿级参数模型训练,恐怕捉襟见肘,需要集群网络拓扑有更大的外延扩展

但从HGX H20的硬件参数综合来看,几乎把美国商务部性能密度禁令中严格限制的算力门槛以外的指标全部拉满,显然是定位为一颗训推通用的处理器。

只是针对LLM大模型业态而言,实际使用H20做千卡分布式训练,虽然大部分有效利用时间都是GPU上的矩阵乘加计算的时间,通信和访存的时间占比缩小,但毕竟单卡算力规格较低,超限度的千卡集群扩展反而会使其费效比降低,H20更适用于垂直类模型的训练/推理,不容易满足千亿参数级LLM的训练需求

需要注意的是,选用更多低规格、更廉价的GPU并联集群,试图追平或是超过一台超高算力的GH200效能,这是一种悖论。

因为这种方案的掣肘很多,环境搭建和运行的ROI并不高。因为在算力利用率、并行策略的执行、集群综合能耗、硬件成本和组网成本等等方面都不可能获得理想方案;H20集群与A800集群效能可以同比,对比H100/GH200集群效能则是不实际的。

H20的基本规格方面,算力水平约等于50%A100和15%H100,单卡算力是0.148P(FP16)/0.296P(Int8),900GB/S NVLink,6颗HBM3e(显存的物料与H100 SXM版本配置相同,即6*16GB=96GB容量),die size同样都是814mm2 。

考虑到H100GPU单卡物料成本中的HBM颗粒成本独占55%-60%,整卡的物料成本约3320美元(H20成本相近,甚至由于增配的L2Cache以及追加了点断工序而成本更高,且相比H800更加增配了HBM3容量和NVLinklanes带宽),那么对应最终的渠道定价规则,H20的渠道单价可能与H100/H800处于相近水平

同比参考几个市面流通价格(来自某一线互联网公司和某一线服务器厂的渠道货价):

-DGXA800PCIe8卡服务器约145万元/台,NVLink版本200万元/台

-DGXH800NVLink版本服务器,国内渠道报价约310万元/台(不含IB)

-DGXH100NVLink版本服务器,香港渠道报价约45万美元/台(不含IB)

-H100PCIe单卡报价约2.5-3万美元,H800PCIe单卡尚不确定,且单卡流通渠道不正规

内容链接:https://www.hpaper.cn/13970.html

(0)
上一篇 2023-11-28 上午9:55
下一篇 2023-11-28 上午9:57

相关推荐

  • 中国车企避免掉入“利润下滑”舆论陷阱

    (文/张家栋 编辑/高莘) 近期,海外评级机构穆迪副总裁兼高级信贷官Gerwin Ho表示,“尽管需求强劲,但激烈的国内竞争正在侵蚀中国电动汽车制造商的盈利能力。” 该机构还在一份中国电动汽车行业报告中指出,中国车企之所以大力推动海外市场建设,是因为国内盈利前景黯淡。 在全球化的背景下,影响力日益强大的中国汽车品牌走出国门,面向全球市场已经成为必然趋势,但在…

    1天前
    6
  • 全球最大,马斯克4个月建成10万张H100超算集群!xAI算力超越OpenAI,奥特曼怕了

    新智元报道 编辑:编辑部 【新智元导读】两天前,马斯克得意自曝:团队仅用122天,就建成了10万张H100的Colossus集群,未来还会扩展到15万张H100和5万张H200。此消息一出,奥特曼都被吓到了:xAI的算力已经超过OpenAI了,还给员工承诺了价值2亿期权,这是要上天? 马斯克的xAI一路狂飙突进,把Sam Altman都整怕了! 就在9月3日…

    2天前
    507
  • 两家AI巨头正讨论建超级AI数据中心 每个耗资1250亿美元

    9月4日消息,全球顶尖的人工智能开发商对其最先进的技术一向保密,而对于开发这些技术所需的专业数据中心,他们则更加讳莫如深。 据美国科技媒体《The Information》披露,美国七个州有17个已建成或规划中的人工智能数据中心,这些数据中心有时被称为超级计算机或人工智能芯片集群。目前,这些超级计算数据中心或已投入运营,或正由微软、OpenAI、Meta及埃…

    3天前
    2.8K
  • 特斯拉中国回应明年生产六座版 Model Y:不实消息

    IT之家 9 月 3 日消息,路透社今日报道称,特斯拉计划于 2025 年底开始在国内生产六座版 Model Y。特斯拉中国向界面新闻回应表示:“不实消息”。 有知情人士对路透社表示,特斯拉已要求供应商为其上海工厂 Model Y 产量实现两位数增长做好相应准备。 参考IT之家此前报道称,特斯拉于 2020 年发布了 Model Y,并一直在开发一项名为“J…

    4天前
    5.3K
  • 零跑首次交付超3万辆,蔚来销量连续4个月超2万辆,8月新势力“成绩单”出炉

    9月1日,多家新能源车企公布了8月的交付数据。从已公布的数据来看,多家企业实现了销量或交付量的同比增长,延续了“淡季不淡”的销售趋势。 造车新势力方面,理想汽车依旧位列当月新车交付榜第一位。理想汽车公布的8月交付数据显示,其交付新车4.81万辆,同比增长37.8%;2024年1月~8月,理想汽车共交付28.81万辆汽车。截至2024年8月31日,理想汽车已累…

    5天前
    583
  • BBA车主的面子,被假货三件套背刺

    有网友吐槽BBA的赠品:以前买奔驰全是原厂的。后来买奥迪一半是原厂的,现在买宝马全是淘宝货。 作者|钱多多 编辑|原 野 曾经,有人买BBA就是买个标。 现在,印着BBA车标的赠品正在痛击BBA车主的面子。 有BBA车主发现,自己在购车时与销售多轮拉扯要来的赠品小熊,疑似为网购的20元假货。廉价假货重灾区集中在小熊、雨伞、行李箱,并称:假货三件套。相比蔚来、…

    2024-08-30
    5.0K
  • 李想解读理想汽车财报:鸿蒙智行是强劲对手,我们持续学习华为

    雷递网 乐天 8月28日 理想汽车(Nasdaq: LI; HKEX: 2015)今日公布2024年第二季度财报。理想汽车董事长兼CEO李想、总裁、总工程师马东辉、CFO李铁、销售与服务高级副总裁邹良军出席电话会议。 李想在电话会议上表示,鸿蒙智行是理想汽车在市场上最强劲的对手,双方会长期健康地共存下去。从另一个角度看,理想汽车的核心态度是要长期地、持续地向…

    2024-08-29
    2.2K
  • 是谁接住了《黑神话:悟空》撒出的“泼天富贵”?

    《黑神话:悟空》正在改写中国游戏的历史,同时扮演着极具“钞能力”的带货王。 据游戏科学官方消息,发售3天之后,截至2024年8月23日21点整,中国首款3A大作《黑神话:悟空》全平台销量已超过1000万套,全平台最高同时在线人数达300万人。 这一数据不仅大幅打破国产游戏的销售纪录,也使《黑神话:悟空》成为有史以来销量达到1000万最快的主机游戏之一。即使是…

    2024-08-28
    1.0K
  • 第十三届中国创新创业大赛(海南赛区)暨海南省第十届“科创杯”创新创业大赛决赛在海口圆满落幕

    8月27日,第十三届中国创新创业大赛(海南赛区)暨海南省第十届“科创杯”创新创业大赛决赛在海口圆满落幕。在颁奖典礼活动环节,海南省政府张华伟副秘书长出席活动并为初创组一等奖和成长组一等奖的获奖企业颁奖,海南省科技厅党组书记李劲松在活动现场致辞并宣读大赛获奖决定,并同时授予2家一等奖的获奖企业省重点研发项目的立项支持,海南省科技厅副厅长蒙巍向13位决赛评委颁发…

    2024-08-28
    693
  • 枢密院十号:放着现成的“龙”飞船不坐,NASA为何非要两名美国宇航员再“漂”半年?

    美国国家航空航天局纠结了许久之后,终于还是给波音公司沉重一击:两名在国际空间站滞留的美国宇航员将由美国太空探索技术公司(SpaceX)的载人“龙”飞船在明年2月送回地球,而波音公司出现故障的“星际客机”飞船则将在今年9月以无人驾驶模式自行返航。 应该说,对于这个结局,其实外界早有预感,毕竟NASA给了波音公司足够长的时间,但依然没有能够彻底解决“星际客机”飞…

    2024-08-27
    998
  • 波士顿动力创始人对话国内四大AI机器人CEO:“人形机器人是炫耀而非生产力”

    8月24日下午,2024世界机器人大会上,举行了一场期待已久的中国、美国“具身智能”与人形机器人领域学者的“世界对谈”。 大名鼎鼎的“机器狗之父”、美国波士顿动力创始人Marc Raibert(马克·雷伯特)首次来到北京。他说,“我简直不敢相信,不仅是机器人的数量,难以置信,还有这么多热情的人参加了展览。中国对机器人的兴奋和热情很高。” 而此次与Marc对谈…

    2024-08-26
    3.7K
  • 《黑神话:悟空》销量超1000万套,游戏科学CEO:很快,很意外

    8月23日,《黑神话:悟空》官方账号发文称,截止北京时间2024年8月23日21点整,全平台销量已超过1000万套,全平台最高同时在线人数300万人。 游戏开发公司游戏科学创始人、CEO,《黑神话:悟空》制作人冯骥也在微博发文称,“很快,很意外,很high,也很respect~”冯骥写道,这座山,靠我,靠几个老哥,也许能爬300米,但绝对、绝对爬不到现在的高…

    2024-08-24
    6.7K
  • 山姆成“全村希望”?清仓京东股票,沃尔玛中国市场重划重点

    本报(chinatimes.net.cn)记者周梦婷 北京报道 “零售巨头”沃尔玛在出售京东集团股权。当地时间8月20日,沃尔玛在向美国证券交易委员会递交的文件中表示,沃尔玛已完成出售所持全部京东股份,不再是京东持股5%以上股东。8月21日晚间,京东集团也发布公告称,截至2024年8月20日止(美国东部时间),沃尔玛不再持有公司股权。 针对此事,8月21日沃…

    2024-08-23
    1.1K
  • OpenAI推出新功能,将允许企业“定制”目前最强大的AI模型GPT-4o

    8月21日消息,当地时间8月20日,OpenAI宣布将面向企业推出“个性化定制服务”,企业可以使用自身数据来微调“定制”OpenAI。 据OpenAI负责模型定制化工作的软件工程师John Allard透露,微调训练平均需要一到两个小时,最初用户只能使用基于文本的数据来微调模型,而不能使用图像或其他内容。 微调(fine-tuning)作为AI模型优化的重要…

    2024-08-21
    1.8K
  • 网传苹果发布会将于9月10日举行 关于iPhone 16我们知道些什么?

    财联社8月19日讯(编辑 史正丞)随着苹果新手机的参数被“挖了个底朝天”,爆料人们又将手伸向了另一个未知的领域——提前爆料苹果的邀请函。 周一美国科技媒体援引社交媒体爆料称,今年苹果秋季新品发布会将于9月10日举行。爆料者还提供了一张所谓的“活动邀请函”截图——朦胧的苹果logo似乎在暗示“沙漠金”新配色,同时发布会的主题“准备好-预备-捕捉”(Ready.…

    2024-08-20
    3.3K
  • 微软更新服务协议:AI工具仅为辅助,非专业建议替代品

    【环球网科技综合报道】8月19日消息,针对近期其AI工具准确性问题所引发的争议,微软采取了新措施,提醒用户需谨慎对待其AI服务。为此,公司更新了服务协议,并明确指出,其AI工具应被视为辅助工具,而非专业建议的替代品。 新修订的条款将于下月底正式生效。其中,微软特别强调了其健康聊天机器人存在的问题,并警告用户过度依赖该机器人提供的建议可能会带来风险。 微软明确…

    2024-08-19
    5.2K
  • 多家车企调整优惠力度!有品牌一周内现金优惠减少2000元,专家:下半年“价格战”或趋缓

    “近几年的车市价格呈现持续上升的态势,2019年(均价)是14.2万元,2020年(均价)是15.3万,今年累计平均(售价)是17.9万元,7月(均价)是18.2万元。”8月13日,乘联会秘书长崔东树发布的最新数据引发关注。有网友提出疑问,汽车市场价格战已持续一年之久,车价反而越降越贵? 日前,《每日经济新闻》记者走访多家汽车门店时也被告知,现阶段的优惠可能…

    2024-08-16
    2.8K
  • 大消息!蚂蚁集团计划收购好大夫在线

    近日,《健闻咨询》从多个信源处获悉,蚂蚁集团正计划收购好大夫在线。此前,与好大夫在线洽谈收购事宜是蚂蚁集团的兄弟公司阿里健康,但近期,有接近蚂蚁集团的人士透露,目前谈判方已由阿里健康转变为蚂蚁集团。 目前,打开支付宝首页的医疗健康频道,选择“在线问诊”,即能看到“好大夫”的字样,点击进入后,页面所呈现的内容和好大夫在线APP里的“专家问诊”界面完全一致。有支…

    2024-08-15
    1.9K
  • 自动驾驶:怕不来又怕乱来

    自动驾驶出租车“萝卜快跑”在湖北武汉落地,迅速引发热议。每10公里4元至16元不等的价格,吸引不少市民排队尝鲜,也让更多人意识到:自动驾驶,比想象中来得还要早一些。 这次落地的突破性试验,既是对技术足迹的一次试探,也是技术对现有劳动力结构和产业格局的一次冲击。除利益相关者之外,大众的态度达到了一种微妙的平衡:怕自动驾驶不来,又怕自动驾驶乱来。 解放双手、提升…

    2024-08-14
    3.6K
  • 萝卜快跑辟谣招商加盟背后:Robotaxi离商业化还有多远?

    《科创板日报》8月12日讯(记者 黄心怡)虽然萝卜快跑尚未盈利,但已有不法分子看上了这块蛋糕。 8月12日,萝卜快跑发布声明称,针对近期不法分子以“萝卜快跑”名义开发虚假网站及APP,并通过网络(社交媒体、聊天软件等)散布虚假招商加盟、租赁信息等涉嫌非法获取公民个人信息、诈骗的违法犯罪活动,已第一时间向相关部门举报。同时向各社交媒体平台累计发出800余次举报…

    2024-08-13
    2.0K