英伟达为中国“降规”:H800变身为H20,技术如何实现、性能够用吗?

10月17日,美国更新出口管制标准,要求先进芯片性能超过特定阈值,即需要申请出口许可。在严苛的限制条件下,英伟达针对中国市场的特供版H800、A800两款芯片也面临禁售,以下为美国商务部对先进芯片性能的划定标准:

●总算力之和≥4800TOPS,

●总算力≥1600,且性能密度≥5.92;

●2400≤总算力<4800,且1.6<性能密度<5.92;

●总算力≥1600,且3.2≤性能密度<5.92。

面对新的管制条例,英伟达给了两个解法:其一,沟通美国商务部申请许可,给特定的中国客户“开白”;其二,针对新的管制条例,再次定制全新的特供版本。

刚刚举办的第三财季电话会议上,英伟达首席财务官科莱特·克雷斯确认了这一消息。克雷斯表示,英伟达正在与中东和中国的一些客户合作,以获得美国政府销售高性能产品的许可。此外,英伟达正试图开发符合政府政策且不需要许可证的新数据中心产品。

01 H800是如何“阉割”成为H20?

英伟达试图开发的新的特供版,即业内盛传的H20、L20等产品,最新消息显示,相关产品的上市计划已经延后至2024年第一季度。

问题在于,H20等全新特供芯片的研发、设计、生产,完全跳出了常规芯片的节奏,英伟达是如何在短时间内拿出这套特供解决方案?

它的答案就是我们这篇文章要讨论的关键问题之一:后道点断生产工艺,用大家更为常用的词汇总结即——阉割。

HGXH20-L20PCIe-L2PCIe-产品规格

英伟达为中国“降规”:H800变身为H20,技术如何实现、性能够用吗?

按正常的设计、生产周期和产品发布节奏来推断,特供中国市场的H20/ L20等型号的芯片在这个时间节点发布,不太可能是重做光罩、重新投片的产物,一个相对合理的推论——即它们是通过半导体后道的物理点断工艺的改造+再封装,进而推出的新SKUs。

点断工艺是半导体制造的后道工序(BEOL)中的改造方法,可以在无需重做光罩的前提下使用一些管/线修补工艺,包括表面激光点断、CoWoS层面点断,甚至通过隧道镜手工雕线

英伟达为中国“降规”:H800变身为H20,技术如何实现、性能够用吗?

可以假定一下这样的场景,代工英伟达H800的台积电南科Fab18A、台中Fab15B和台中先进封装5厂的洁净室里,此前降规生产的几批次裸片,还没来得及切割、镀上金属线和电极,还未封装成H800和L40S,转而通过后道点断生产工艺再封装成H20、L20。

02 表面激光点断是半导体制造传统艺能

行业惯例来说,一颗数字逻辑芯片的缓存大小(CacheSize)、底层物理互连(PHYchannels)都可以通过在后道封测环节重修/点断做失效屏蔽处理的,尤其是针对低分数裸片的改造方法算是几十年的传统艺能,例如早期的奔腾、赛扬处理器的重要区别之一就是点断缓存

倘若是局部微小部分,曾经可以手工完成(相当于微雕);面积稍大的部分,可以重新设计Layout预留点断位置,再由机器完成点断失效。

一种内置数字显示的温度传感器设计版图

英伟达为中国“降规”:H800变身为H20,技术如何实现、性能够用吗?

实操上,通常的晶圆厂都会配置专业设备,由激光直接在裸片上切割线路/沟槽,而在亚利桑那钱德勒市的Intel Fab42工厂里,还有直接在专用隧道镜下面手工雕刻晶体管的设备,宣称是原子尺度的,不同于寻常的扫描隧道显微镜,几年前Intel有个宣传视频,提到这台设备,据传全球持证的操作手不超过14人。

其实在平面晶体管以前,显微镜手雕不算是高难度动作,但进入FinFET以后,由于垂直方向的3D栅极结构,手雕设备的代价和操作员就变得遥不可及了。

具体到H20/L20,这两款特供产品,是如何通过H800、L40S降规而来?可以先看看相关参数:

H20:对应H100/800系列,Hopper架构(HBM3、2.5D CoWoS封装、NVLink)

L20:对应L40S系列,Ada Lovelace架构(GDDR6,2D InFO封装,PCIe Gen4)

*注:固件相应修改;

回顾H100/H800相同架构之间比较关键的底层物理互连(SerDes PHY)的差异,H100降规阉割成H800,可以通过局部物理点断失效处理来实现;但相比之下,H20虽然与前面两款产品同构,但推测割掉的Dark Si面积可能较大,不确定常规点断操作是否不值得,也许需要重新做Layout

但是除了底层物理层互连(SerDes PHY)的区别,还有双精度浮点计算(FP64)单元面积、张量核(用于矩阵、卷积类计算任务)单元面积的区别,这部分不好定论,但可以推测是类似利用物理冗余设计并加以屏蔽的操作,毕竟如今的设计方法学都是推动模块化的,流片后的测试原本就会有70分 die与90分 die的区别,以及GPU芯片上也不止一个FP64,局部操作物理点断失效也是合理的。

03 设计冗余为点断创造条件,也是大厂基操

举个例子:A、如今市面仍可见的Intel F系列CPU,就是点断显核的70分die;B、Apple Si的前两代,官宣8核NPU,实际有9个,就是设计冗余

以上这些,在晶圆制造工序中也算是基本操作,特别是中试厂/线,Alpha – Beta流片的过渡期间,有小错就会直接手改,不会返回修改掩膜重新流片的。

从芯片设计者的角度来看,设计冗余度是在芯片开发流程中原本存在的,因为前道光刻过程是强调高良率的,具体到失效晶体管数,测试环节判断模块级别的良率,坏点可以直接电路割断,后续引线、封盖工艺流程都不变

例如3年前,Intel曾向市场推出过不带显核的F系列CPU,就是物理降规/阉割的产物,点断显核,重新封装销售。但是该款芯片偶尔耗电巨大,经用户投诉,建环境验证后发现就是原本通过物理点断失效的显核在接电之后不受控制而导致的莫名电源故障。

这个案例反映的情况就是我们上文所讲的,同一条流水线,经过点断失效的芯片,后续的导线/引脚和封装过程不变,可以继续销售。尤其早期Intel 10nm的良率很低,积压很多这样的低分片,才会把显核失效的芯片加印F标继续销售。

如今这个“冗余度”可能有很大空间,毕竟H100已然是814平方毫米的大芯片,几乎接近光罩尺寸边缘(26mm*33mm=858mm2)。而如今发布的H20降规型号,大概是H100 15%的性能,但是其物料成本几近相同。

04 封装层面点断可操作性、经济性更好

除了在逻辑芯片表面的激光点断工艺之外,还有针对某些特殊位置的点断要求,比如CoWoS中介层的点断

CoWoS作为台积电的2.5D封装方案,可以使得多颗芯片封装到一起,互连和内存等器件均通过硅中介层互联,达到了封装体积小,功耗低,引脚少的效果。

相比表面激光点断,在CoWoS的前道部分——即CoW部分是硅通孔和中介层——在该层面操作点断,做差异化,反而更经济,也更容易保证良率。因为算力逻辑芯片和I/O芯片是分列的,可以屏蔽底层物理互连的通道,也可以缩减HBM3内存性能,而且在硅中介层修改差异化更容易,相比全部在逻辑芯片上修改的代价更低,因为中介层上操作的线宽精度可以较低,甚至点断最上面那层金属的线宽即可。

但是,CoWoS中介层上面是只能够屏蔽物理互连和HBM内存,但是无法屏蔽FP64单元、Tensor core单元这样的计算逻辑芯片面积,这就需要补充用到前文所说的在逻辑die表面点断失效的方法。

另外,正常情况下,物理点断失效的电路是不能从外部第三方察觉的,且工艺不可逆;尤其如今芯片都是十几层金属,裸片的表面修改了,上面金属层是看不穿的,除非是用到反工程的透视扫描。

综上,我们看到进一步特供/降规生产的H20/L20等型号,可以判断是H800和L40S的裸片的后道物理点断工序的改造产物,同时重新封装、重新修改固件,成为新的SKUs。

回想Nvidia之前积压的、原本销往中国的50亿美元的GPU产品尚未交付,如今返厂做了后道改造才得以如此快速的发布新的SKU,那么猜测国内厂商的50亿美元订单也许会转换为这三个型号。

05 “阉割”后的H20的能与不能

核心AI芯片相关参数及出口管制情况,APPLIES对应受管制,DOESN’TAPPLY对应不受管制

英伟达为中国“降规”:H800变身为H20,技术如何实现、性能够用吗?

如下是针对H20与H100/H800/A100的产品横向比较,比较维度包括“产品规格、单卡和集群算力效能、物料成本、定价体系”等四个方面:

英伟达为中国“降规”:H800变身为H20,技术如何实现、性能够用吗?

集群综合算力方面,H100/H800目前是AIDC算力集群的顶流部署;其中H100理论扩容极限是5万张卡集群,最多可达10万P算力;H800最大集群是2-3万张卡,合计4万P算力;A100最大集群是1.6万张卡,合计9600P算力。

然而对于H20,其集群的理论扩容极限是5万张卡,以单卡算力0.148P(FP16/BF16)计算,集群合计提供7400P算力,远低于H100/H800/A100。

基于NVIDIAH800的8卡服务器模组

英伟达为中国“降规”:H800变身为H20,技术如何实现、性能够用吗?

同时,基于算力与通信均衡度预估,5万张H20合理的整体算力中位数约为3000P左右,倘若H20面对千亿级参数模型训练,恐怕捉襟见肘,需要集群网络拓扑有更大的外延扩展

但从HGX H20的硬件参数综合来看,几乎把美国商务部性能密度禁令中严格限制的算力门槛以外的指标全部拉满,显然是定位为一颗训推通用的处理器。

只是针对LLM大模型业态而言,实际使用H20做千卡分布式训练,虽然大部分有效利用时间都是GPU上的矩阵乘加计算的时间,通信和访存的时间占比缩小,但毕竟单卡算力规格较低,超限度的千卡集群扩展反而会使其费效比降低,H20更适用于垂直类模型的训练/推理,不容易满足千亿参数级LLM的训练需求

需要注意的是,选用更多低规格、更廉价的GPU并联集群,试图追平或是超过一台超高算力的GH200效能,这是一种悖论。

因为这种方案的掣肘很多,环境搭建和运行的ROI并不高。因为在算力利用率、并行策略的执行、集群综合能耗、硬件成本和组网成本等等方面都不可能获得理想方案;H20集群与A800集群效能可以同比,对比H100/GH200集群效能则是不实际的。

H20的基本规格方面,算力水平约等于50%A100和15%H100,单卡算力是0.148P(FP16)/0.296P(Int8),900GB/S NVLink,6颗HBM3e(显存的物料与H100 SXM版本配置相同,即6*16GB=96GB容量),die size同样都是814mm2 。

考虑到H100GPU单卡物料成本中的HBM颗粒成本独占55%-60%,整卡的物料成本约3320美元(H20成本相近,甚至由于增配的L2Cache以及追加了点断工序而成本更高,且相比H800更加增配了HBM3容量和NVLinklanes带宽),那么对应最终的渠道定价规则,H20的渠道单价可能与H100/H800处于相近水平

同比参考几个市面流通价格(来自某一线互联网公司和某一线服务器厂的渠道货价):

-DGXA800PCIe8卡服务器约145万元/台,NVLink版本200万元/台

-DGXH800NVLink版本服务器,国内渠道报价约310万元/台(不含IB)

-DGXH100NVLink版本服务器,香港渠道报价约45万美元/台(不含IB)

-H100PCIe单卡报价约2.5-3万美元,H800PCIe单卡尚不确定,且单卡流通渠道不正规

内容链接:https://www.hpaper.cn/13970.html

(0)
上一篇 2023-11-28 上午9:55
下一篇 2023-11-28 上午9:57

相关推荐

  • 阿里京东物流“拆墙”进行时:有商家火速换快递,末端快递员担心收入下降

    本文来源:时代财经 作者:林心林 今年“双十一”,两大电商平台和物流商各自为阵的局面将正式终结。 图片来源:图虫创意 10月16日,京东物流与淘天集团正式达成合作,京东物流将全面接入淘宝天猫平台,平台商家将能够选择京东物流作为服务商,目前双方对接系统已基本完成,消费者也可以在淘宝和天猫APP内查询京东物流轨迹。 这意味着,淘宝与京东这一对电商竞对,将各自过去…

    2024-10-17
    13
  • AI圈顶流捧场!黄仁勋苏姿丰都来了,联想亮AI Now智能体大招,连甩10多个重磅AI产品

    刚刚,联想一场大会,把全球AI圈顶流聚齐了! 黄仁勋苏姿丰接连登场、英特尔AMD史无前例首次合作、英特尔CEO现场掏出下一代CPU、扎克伯格剧透XR新品,还有联想智能体大招AI Now正式登场。 昨晚,AI量大管饱,精彩镜头应接不暇。 智东西西雅图10月15日现场报道,刚刚联想创新科技大会2024正式开幕,联想一口气发布了PC个人AI智能体、搭载英伟达新核弹…

    2024-10-16
    4
  • AI攻占诺奖背后:新的技术革命成为社会进步发展的重要引擎

    “超越人类智慧的AI可以用语言操纵我们,或许会试图说服我们不要关掉开关。” 今年3月,由ChatGPT掀起的AI(人工智能)技术革命背后的奠基性科学家、被誉为“AI教父”的杰弗里·辛顿(Geoffrey E. Hinton),曾对媒体提及他对AI“反噬人类”的担忧。如今,在他心中“危险和机遇并存”的AI,为他带来了诺贝尔物理学奖的荣誉。 当地时间10月8日,…

    2024-10-15
    1.9K
  • 苹果自动驾驶汽车项目画上句号:加州测试许可被取消

    IT之家 10 月 12 日消息,就在彭博社的马克・古尔曼报道苹果放弃了发布电动汽车的计划六个月后,据 macReports 报道,加州机动车辆管理局(DMV)取消了苹果的自动驾驶车辆测试许可证。 据悉,DMV 于 9 月 25 日收到苹果的确认,同意取消该许可证,该许可证于 9 月 27 日被取消。这意味着苹果公司持续了十年之久的电动汽车项目被彻底终结,没…

    2024-10-12
    1.1K
  • 大UP质问平台为什么视频越来越糊,答案比问题要复杂得多

    文|王毓婵 编辑|乔芊 10月8日,在全网拥有超千万粉丝的视频创作者@影视飓风发布了一条视频,标题为《清晰度不如4年前!视频变糊是你的错觉吗?》。这条视频揭示了视频平台为降低流量费用支出,通过降低码率和调整编码格式压缩视频画质的现象。 “2024年,4K视频你应该已经司空见惯。各家平台争先恐后在画质上做文章,我们也在不断更新设备,提升节目的质量。但我们在平台…

    2024-10-11
    1.5K
  • 特斯拉“命运日”即将到来:Robotaxi能否帮马斯克“翻身”?

    财联社10月10日讯(编辑 刘蕊)不到24小时之后,特斯拉将成为全球瞩目的焦点:特斯拉将在加利福尼亚州伯班克华纳兄弟工作室举行“Robotaxi Day”活动。届时,众多投资者和分析师们将看到期待已久的自动驾驶出租车Cybercab及其他产品的发布。 随着“Robotaxi Day”活动的逐步临近,特斯拉股价也在过去几周持续上涨,几乎抹平了年内跌幅——这也表…

    2024-10-10
    2.7K
  • 又发布两款新车的富士康还没在全新领域找到获胜之道

    致力于在电动汽车领域开辟新增长曲线的富士康发布两款全新电动汽车,将其乘用车产品阵容扩充至MPV领域。 10月8日,在一年一度的鸿海科技日上,富士康推出MPV车型Model D和中型电动巴士Model U。该MPV新车强调宽敞的内部空间,轴距达到3.2米。在800V电子电气架构的支持下,预计WLTP续航里程约为660公里。 富士康依然与意大利车身制造商宾尼法利…

    2024-10-09
    1.6K
  • 33亿增资,合肥为什么再次“抄底”蔚来?

    作为中国第一家在美国上市的电动车企,蔚来一度面临崩溃的边缘。 2019年年底,蔚来的股价触及1.32美元的低点,市值距离高点蒸发80%以上。 高瓴清空了蔚来股票,红杉也选择了减仓。 当时的李斌四处奔走请客吃饭,想为蔚来寻求融资输血。 一个故事是,一家国资的老总在席间直斥李斌”乱花钱”。 所谓的乱花钱,是指当时的新能源车企几乎都依赖补贴…

    2024-10-08
    33
  • 跨国车企销量都跌了,为何仅欧美“狂”裁员?

    自今年以来,欧美汽车企业掀起了一股裁员浪潮。 福特、特斯拉、通用汽车、大众集团、Stellantis集团等跨国车企相继宣布裁员计划。车企本次裁员人数大多在千人以上,其中大众集团(正在与工会谈判中)和特斯拉更是超过万人规模。 这股寒流已经蔓延至零部件供应链。芯片制造商英飞凌、充电设备制造商Blink Charging、瑞典电池制造商Northvolt等零部件企…

    2024-09-30
    17
  • 7.99万就能提车的Model Y,还顶得住新势力的围攻吗

    9月27日,特斯拉上海超级工厂迎来第100万辆车下线。 从一片泥洼地到变成全球电动汽车巨头最大的海外基地,特斯拉上海工厂在不到4年时间里实现了产能和制造工艺的双双飞跃。 而随着特斯拉副总裁陶琳在社交媒体上写下“感谢每一位新老车主的爱和支持”的同时,这家电动车公司正在被它从前的一众门徒视为必须要跨越的门槛,9月集中上市的新车乐道L60、极氪7X等尤为雄心勃勃。…

    2024-09-29
    44
  • 逼退张大奕的退货率,让丰巢一年狂揽9个亿

    9月19日,曾经的“淘宝女装第一人”张大奕用小号发微博称,她将无限期延迟十年老店“吾欢喜的衣橱”的上新,宣告了这个曾经最火的淘宝女装店将关店。她称闭店是因为女装毛利微薄支撑不了各项运营成本,以及,电商越来越高的退货率。 就在张大奕宣布关店的三周前,丰巢刚刚向港交所提交招股书,寻求以250亿元的估值上市。招股书显示,连亏八年的丰巢终于在2024年前5个月有了7…

    2024-09-27
    971
  • OpenAI高层再震荡:CTO官宣离职,Sora恐长期停滞?| 最前线

    文|袁滢靓 编辑|邓咏仪 北京时间9月26日凌晨3点,OpenAI 首席技术官(CTO)Mira Murati在X上官宣辞职。那张成就了ChatGPT时代的四人合照,如今两个离职,一人休假,只剩下Altman一人扮演独角戏了。 △图源:X网友 @brewmarkets OpenAI的腥风血雨体质,也在另一方面体现了什么是“明星”公司。前脚GPT-4o高级语音…

    2024-09-26
    47
  • TikTok Shop鏖战美区,内容电商的蛰伏与加速

    TikTok Shop的内容电商,能给全球商家带来新一个增长奇迹吗? 文 | 华商韬略 梁梁 跨境电商正在重新定义全球电商格局。 过去五年,中国跨境电商规模增长超10倍,让数以千万计的中国商家因此扬帆出海,也成就了一张以核心电商平台为节点链接的全球商业网络。 这是一张史无前例的商业大网,它已经而且还在加速改变全球贸易和消费的格局,并且这张网还在不断进化与分化…

    2024-09-25
    1.4K
  • 华为三折叠黄牛价雪崩:从加近十万到仅加四千,黄牛气懵了

    正式发售不到48小时,华为三折叠屏手机Mate XT非凡大师黄牛价就崩了。 9月22日,很多数码博主在社交平台上发视频称,Mate XT三折叠手机价格雪崩,从加价六七万甚至十几万,暴跌至加价四千、两千。 甚至到了“每小时一个价”、“你要买我肯定有货;但你要卖我打死不收”的地步。 官方途径购买线上每天要“蹲点”抢‍‍‍‍‍‍‍‍线下无现货需排队几万人等待 ‍‍…

    2024-09-24
    2.2K
  • 马斯克终于“投降”,“我们的主权不容出售!”

    【文/观察者网专栏作者 蒂亚戈·诺加拉,翻译/ 陈佳芮】 在无视巴西最高法院的命令三周之后,马斯克终于“投降”,作出重大让步。 当地时间9月20日,在一份法庭文件中,社交平台X(原推特)公司的律师表示,X平台已遵守巴西最高法院的相关命令,希望法院能解除对其X平台在巴西境内的禁令。 有意思的是,在这次“X事件”中,一度曾是削弱国家主权和民主机构国际干预堡垒的巴…

    2024-09-23
    7.5K
  • 李斌的“县县通”,蔚来的新未来

    出品|网易科技《态度》栏目 作者|定西 这个中秋假期,李斌有点忙。 为了推进充电县县通和换电县县通计划的落地,他来到该计划最难的地方之一新疆进行实地考察。 时间紧迫。蔚来计划在2025年6月30日前,完成除台湾地区、香港特别行政区外,全国所有县级行政区充电桩全覆盖。今年10月前完成新疆14个地级行政区充电全覆盖,包框乌鲁木齐、克拉玛依、哈密、吐鲁番、昌吉、伊…

    2024-09-20
    1.3K
  • 小鹏回应MONA M03自动泊车撞上奥迪:不排除光线等因素致弱势场景

    IT之家 9 月 18 日消息,近期一起“小鹏 MONA M03 自动泊车撞上奥迪汽车”的事故,引起了IT之家网友的关注。据每日经济新闻今天下午报道,小鹏汽车相关负责人就此事回应称,“公司售后同学已经联系上客户,在积极处理解决中。” 关于自动泊车状态下发生剐蹭的原因,该负责人表示,目前不排除因光线及其他因素导致的弱势场景,具体原因还要结合具体的数据进行分析。…

    2024-09-18
    3.5K
  • 华为三折叠,炸出570万「黄牛」

    「核心提示」人人争当黄牛背后,是三折叠手机备受追捧。沉积的手机市场,太需要这样的“王炸”来唤醒了。 作者 | 陈法善 编辑 | 刘杨 备货量100万台,发布四天就有近570万人预约,华为三折叠手机Mate XT注定是今年最难抢的手机。 要知道,根据IDC的统计,2023年中国折叠屏手机总出货量约700.7万台。也就是说,华为这一个单品,就…

    2024-09-14
    1.1K
  • 比亚迪员工总数突破 90 万,技术研发人员近 11 万全球车企第一

    IT之家 9 月 13 日消息,比亚迪集团品牌及公关处总经理李云飞今日在微博上透露,今天,比亚迪员工总数突破 90 万,是 5300 多家 A 股上市公司里员工人数最多的,比第二名还要多 40 多万人。 李云飞还表示:“比亚迪 90 万员工中,技术研发人员近 11 万,是全球研发人员最多的车企。过去两年还招聘了近 5 万名优秀应届大学生,持续助力大学生就业。…

    2024-09-13
    537
  • 从Vertu到8848,奢侈品手机为何全军覆没

    华为三折叠终于发布了,19999元起售。 主要噱头是比折叠还多一折,但也引起了互联网的广泛争论。 在争论之中,黄牛早已率先抢购。 据网上消息,黄牛把三折叠已经炒到了一台65万。 一台38万,有人为了提升销量,黄牛给出的利好是全国可飞。 大家都知道这个溢价不可持续。可大家的疑惑点在于,华为三折叠的受众是谁? 为何有种魔幻的吸引力? 如果堆科技参数。 我可以告诉…

    2024-09-12
    796