您的位置:首页 >动态 > 综合精选 >

AMD推出InstinctMI300XAIGPU加速器比NVIDIAH100快达60%

导读 AMD宣布正式推出旗舰AIGPU加速器MI300X,性能比NVIDIAH100提升高达60%。AMD终于拥有在AI领域对抗NVIDIA的GPU,MI300X比H100快60%AMDInstinc...

AMD宣布正式推出旗舰AIGPU加速器MI300X,性能比NVIDIAH100提升高达60%。AMD终于拥有在AI领域对抗NVIDIA的GPU,MI300X比H100快60%AMDInstinctMI300级AI加速器将成为另一个小芯片动力源,利用台积电的先进封装技术。今天,AMD不仅宣布推出这些芯片,还分享了MI300X的首个性能基准测试,看起来非常棒。AMD首先使用一般规格作为比较,并使用其CDNA3加速器提供的功能(与NVIDIAH100相比):

在一般LLM内核TFLOP中,MI300X在FlashAttention-2和Llama270B中提供高达20%的性能提升。从平台角度来看,将8xMI300X解决方案与8XH100解决方案进行比较,我们发现Llama270B获得了更大的40%增益,而Bloom176B则获得了60%的增益。

AMD提到,在训练性能方面,MI300X与竞争对手(H100)相当,并提供有竞争力的价格/性能,同时在推理工作负载方面表现出色。

最新MI300加速器背后的驱动力是ROCm6.0。该软件堆栈已更新到最新版本,具有强大的新功能,包括支持各种人工智能工作负载,例如生成式人工智能和大型语言模型。

新的软件堆栈支持最新的计算格式,例如FP16、Bf16和FP8(包括Sparsity)。这些优化相结合,通过优化的推理库将vLLM的速度提高高达2.6倍,通过优化的运行时间将HIPGraph的速度提高1.4倍,并通过优化的内核将FlashAttention的速度提高1.3倍。ROCm6预计将于本月晚些时候与MI300AI加速器一起推出。看看ROCm6与NVIDIACUDA堆栈的最新版本(它的真正竞争对手)相比如何,将会很有趣。

AMDInstinctMI300X-凭借CDNA3和大内存挑战NVIDIA的AI霸主地位

AMDInstinctMI300X是最受关注的芯片,因为它针对的是AI领域的NVIDIAHopper和英特尔Gaudi加速器。该芯片是完全基于CDNA3架构设计的,并且有很多东西正在发生。该芯片将混合使用5纳米和6纳米IP,所有这些IP组合起来可提供多达1,530亿个晶体管(MI300X)。

AMDInstinctMI300X和MI300AAI加速器详细介绍:CDNA3和Zen4采用先进封装Marvel2

AMDInstinctMI300X加速器。

从设计开始,主中介层采用无源芯片布局,该芯片使用第四代InfinityFabric解决方案容纳互连层。该中介层总共包括28个芯片,其中包括8个HBM3封装、HBM封装之间的16个虚拟芯片以及4个有源芯片,每个有源芯片都有两个计算芯片。

每个基于CDNA3GPU架构的GCD共有40个计算单元,相当于2560个核心。总共有8个计算芯片(GCD),因此总共有320个计算单元和20,480个核心单元。就产量而言,AMD将缩减这些核心的一小部分,我们将看到总共304个计算单元(每个GPU小芯片38个CU)启用,总共19,456个流处理器。

带CDNA3芯片的AMDInstinctMI300X加速器。

内存是另一个巨大的升级领域,MI300X的HBM3容量比其前身MI250X(128GB)增加了50%。为了实现192GB的内存池,AMD为MI300X配备了8个HBM3堆栈,每个堆栈都是12-Hi,同时整合了16GbIC,每个IC具有2GB容量,或每个堆栈具有24GB容量。

该内存将提供高达5.3TB/s的带宽和896GB/s的InfinityFabric带宽。相比之下,NVIDIA即将推出的H200AI加速器提供141GB容量,而英特尔的Gaudi3将提供144GB容量。大型内存池在法学硕士中非常重要,因为法学硕士主要受内存限制,AMD可以通过在内存领域的领先来展示其AI实力。用于比较:

本能MI300X-192GBHBM3

高迪3-144GBHBM3

H200-141GBHBM3e

MI300A-128GBHBM3

MI250X-128GBHBM2e

H100-96GBHBM3

高迪2-96GBHBM2e

功耗方面,AMDInstinctMI300X的额定功率为750W,比InstinctMI250X的500W提升了50%,比NVIDIAH200多了50W。

展示的一种配置是技嘉的G593-ZX1/ZX2系列服务器,它提供多达8个MI300XGPU加速器和两个AMDEPYC9004CPU。这些系统将配备多达八个3000W电源,总计18000W功率。AMD还展示了自己的InstinctMI300X平台,其中包括8个AI加速器芯片,在性能上优于NVIDIAHGXH100平台。AMD分享的一些数据包括:

HBM3内存提高2.4倍(1.5TB与0GB)

计算FLOPS提高1.3倍(10.4PF与7.9PF)

类似的双向带宽(896GB/s与900GB/s)

类似的单节点环带宽(448GB/s与450GB/s)

类似的网络功能(400GbE与400GbE)

类似PCIe协议(PCIeGen5128GB/s)

目前,AMD应该知道,他们的竞争对手也在全力推进AI热潮,NVIDIA已经公布了2024年HopperH200GPU和BlackwellB100GPU的一些巨大数字,而英特尔则准备在2024年推出Guadi3和FalconShoresGPU。未来几年也是如此。甲骨文、戴尔、META和OpenAI等公司已宣布在其生态系统中支持AMD的InstinctMI300。

目前可以肯定的是,人工智能客户将吞噬几乎所有他们能得到的东西,每个人都会利用这一点。但AMD拥有非常强大的解决方案,其目标不仅是成为NVIDIA的替代品,而且是人工智能领域的领导者。

免责声明:本文由用户上传,如有侵权请联系删除!