与国产AI分袂 NVIDIA最强AI显卡GB300强化FP4:能效暴增50倍
快科技8月29日音信,NVIDIA日前发布了2季度财报,功绩依然暴涨,新一代AI显卡Blackwell系列中的最硬汉GB300本年4季度也会认真上市,下下代的Rubin有6款家具正在鼓励。
GB300的瞩目规格不错参考之前的著述,这里要来看一个可能影响中好意思AI时刻的变化,那便是在算法选拔上,国产的AI跟NVIDIA依然有了分袂,前者选拔的是UE8M0 FP8,而在Blackwell上NVIDIA强化的是NVFP4圭臬。
UE8M0 FP8这几天引爆了国产算力行业,这是Deepseek 3.1认真问世时DS官方公布的音信,称UE8M0 FP8依然全面适配行将发布的新一代国产AI芯片。
固然莫得专指哪家厂商,然而华为昇腾、摩尔线程、砺算科技、芯原科技、海光科技等厂商的新一代算力芯片险些齐会解救这个圭臬。
比拟之前国产AI算力芯片主要采选FP16+INT8的算法圭臬,UE8M0 FP8带来的刚正好多,性能是之前的2-3倍,况兼大幅裁汰显存压力,还能裁汰功耗,具体就要看各大厂商的竣事了。
那手脚AI一哥的NVIDIA呢?比拟国内AI鸿沟率先有DS这种模子厂商来协同算法圭臬的情况,NVIDIA这几年一直以算力芯片上游厂商的身份来推动圭臬,FP64、FP32、FP16、INT8、FP8等圭臬齐是解救的,而在Blackwell架构上,NVIDIA也解救FP4、MXFP4这两种圭臬,但要点推的是NVFP4,它跟E2M1 FP4结构差未几,但精度险些莫得若干归天。

NVFP4圭臬的优点有哪些?最初来看性能上的,GB300的广阔性能大幅进步了50%而来到15PFlops,要知谈它跟GB200基本架构可没什么变化。

50%的性能进步或者不够惊东谈主,那再来望望精度变化。

与FP8的基准比拟,NVFP4在DS 0528的模子精度上险些抓平,大部分逾期不到1个百分点,AIME 2024中致使还跳跃了2个百分点。
在内存使用上,NVFP4与FP16比拟占用减少了3.5倍,比拟FP8也减少了1.8倍,而GB300显卡HBM容量也从GB200的186GB进步到了288GB,雷同的NVL72机柜中,系统的总内存容量可达40TB,能解救3000亿参数的大模子。

第三个上风则是在能效上,GB300在NVFP4的解救下,每Token的能量破费唯有0.2J,GB200则是0.4J,H100架构的H100是10J,比拟之下进步了50倍的能效。
浅易来说,NVIDIA此次主导的NVFP4算法圭臬性能进步了50%,精度比FP8险些莫得归天,内存占用大幅减少2-3倍,能效则是50倍进步。
琢磨到NVIDIA的影响力,NVFP4显着会成为前沿大模子闲居使用的算法圭臬,国内大厂应该也会大限制使用。
但在国产AI芯片上,UE8M0 FP8也依然成为新一代AI芯片的圭臬,尽管它还不成卓绝NVIDIA的CUDA生态,然而这显着亦然国产AI软件及硬件鸿沟的一次要紧协同,雷同有契机杀出重围,或者也能打造出我方的上风范围呢,一切齐有可能。

【本文规则】如需转载请务必注明出处:快科技
职守剪辑:宪瑞
著述践诺举报 ]article_adlist--> 声明:新浪网独家稿件,未经授权谢却转载。 -->