近期,英伟达的新旗舰芯片B300/GB300遭遇了严峻的生产挑战。根据Wccftech的报道,尽管B300/GB300在技术上取得了显著的进步,如显存规格从192Gb提升至288Gb,平台采用了LPCAMM内存模块设计以及带宽提升至1.6Tbps的光模块,以确保数据的高速传输,但这类产品的功耗也达到了历史新高,TDP高达1400W,远超过Hopper架构的H100芯片的350W TDP。这对服务器的散热设计提出了极大的挑战。
天风国际的分析师郭明錤在研报中提到,英伟达在开发B300/GB300时,发现芯片存在严重的过热问题,这可能会影响产品的量产进度。这一问题与DrMos技术有关,该技术由AOS公司提供,是英特尔在2004年推出的一项技术,旨在通过集成驱动器和MOS来减小元件空间占用,并降低寄生参数的影响,从而提高转换效率和功率密度。简单地说,DrMos是一个高度集成的电源解决方案。
尽管AOS的5*5 DrMos芯片是一个散热能效高和成熟的方案,在行业内得到广泛验证,但B300芯片的发热问题并不仅仅是DrMos芯片本身的问题。郭明錤研报中提到的产业链人士指出,B300的发热问题还源于系统芯片管理的设计不足。这已经不是Blackwell架构首次被曝出存在设计问题。今年8月,《The Information》报道,B200芯片在台积电流片过程中发现设计缺陷,问题在于GPU芯片、LSI桥、RDL中介层和主板基板之间的热膨胀特性不匹配,导致封装结构出现弯曲,黄仁勋确认这是英伟达的责任。
B200/GB200芯片的交付时间因此从今年3季度推迟至4季度,而根据公开资料,马斯克凭借10.8亿美元的订单获得了B200芯片的优先交付权,用于增强xAI的超级计算集群Colossus。即使是xAI,也必须等到明年1月份才能收到B200芯片。
至于B300芯片,原定于明年3月GTC大会上发布的旗舰产品,现在却面临未发布先难产的问题。英伟达完全垄断AI服务器芯片市场,却在Blackwell架构上一再出现问题。一个重要原因是英伟达过于追求性能上的断代领先,导致Blackwell系列芯片作为量产型产品,几乎变成了一个实验性平台。例如,CoWoS-L封装技术的应用。Blackwell是一枚基于MCM设计的GPU,即在同一芯片上集成两颗GPU die,为了配合英伟达的需求,台积电方面首次将CoWoS-L技术应用于这枚芯片的封装。
英伟达的Blackwell架构面临的设计挑战表明,尽管公司在追求技术进步和性能领先方面取得了一定的成就,但在实现这些目标的过程中,也必须考虑到产品设计的实际应用和可靠性。过热问题和设计缺陷不仅会推迟产品的上市时间,还可能损害公司的声誉和市场份额。英伟达需要在追求技术突破的同时,确保其产品能够满足市场需求和客户期望。
本文来自作者[sxkxdz]投稿,不代表快芯号立场,如若转载,请注明出处:https://vip.sxkxdz.com/zixue/202412-119936.html
评论列表(4条)
我是快芯号的签约作者“sxkxdz”!
希望本篇文章《英伟达新王炸芯片遭遇难产危机 (英伟达新功能)》能对你有所帮助!
本站[快芯号]内容主要涵盖:国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育
本文概览:近期,英伟达的新旗舰芯片B300,GB300遭遇了严峻的生产挑战,根据Wccftech的报道,尽管B300,GB300在技术上取得了显著的进步,如显存规格从192Gb提升至28...