IT之家 12 月 7 日消息,AMD 今天凌晨 2 點(diǎn)舉辦“Advancing AI”活動(dòng)中,正式宣布了旗艦 AI GPU 加速器 MI300X,其性能比英偉達(dá)的 H100 高出 60%。

性能:
AMD 公司在演講過程中,對比英偉達(dá)的 H100 加速卡,分享了 MI300X 的性能參數(shù)情況,IT之家附上數(shù)值如下:
內(nèi)存容量是 H100 的 2.4 倍
內(nèi)存帶寬是 H100 的 1.6 倍
FP8 TFLOPS 精度是 H100 的 1.3 倍
FP16 TFLOPS 精度是 H100 的 1.3 倍
在 1v1 比較中,訓(xùn)練 Llama 2 70B 模型速度比 H100 快 20%
在 1v1 比較中,訓(xùn)練 FlashAttention 2 模型速度比 H100 快 20%
在 8v8 Server 比較中,訓(xùn)練 Llama 2 70B 模型速度比 H100 快 40%
在 8v8 Server 比較中,訓(xùn)練 Bloom 176B 模型速度比 H100 快 60%
AMD 提到,在訓(xùn)練性能方面,MI300X 與競爭對手(H100)不相上下,并提供具有競爭力的價(jià)格 / 性能,同時(shí)在推理工作負(fù)載方面表現(xiàn)更為出色。




MI300X AI 加速卡軟件堆棧升至 ROCm 6.0,改善支持生成式 AI 和大型語言模型。



新的軟件堆棧支持最新的計(jì)算格式,如 FP16、Bf16 和 FP8(包括 Sparsity)。
架構(gòu):
AMD Instinct MI300X 是最受關(guān)注的芯片,因?yàn)樗槍Φ氖?AI 領(lǐng)域的 NVIDIA 的 Hopper 和英特爾的 Gaudi 加速器。
該芯片完全基于 CDNA 3 架構(gòu)設(shè)計(jì),混合使用 5nm 和 6nm IP,AMD 組合這些 IP,讓其晶體管數(shù)量達(dá)到 1530 億個(gè)。

設(shè)計(jì)方面,主中介層采用無源芯片布局,該芯片使用第 4 代 Infinity Fabric 解決方案容納互連層。中介層總共包括 28 個(gè)芯片,其中包括 8 個(gè) HBM3 封裝、16 個(gè) HBM 封裝之間的虛擬芯片和 4 個(gè)有源芯片,每個(gè)有源芯片都有 2 個(gè)計(jì)算芯片。



每個(gè)基于 CDNA 3 GPU 架構(gòu)的 GCD 總共有 40 個(gè)計(jì)算單元,相當(dāng)于 2560 個(gè)內(nèi)核。總共有八個(gè)計(jì)算芯片 (GCD),因此總共有 320 個(gè)計(jì)算和 20,480 個(gè)核心單元。在良率方面,AMD 將縮減這些內(nèi)核的一小部分,我們將看到總共 304 個(gè)計(jì)算單元(每個(gè) GPU 小芯片 38 個(gè) CU),總共有 19,456 個(gè)流處理器。

內(nèi)存方面,MI300X 采用 HBM3 內(nèi)存,容量最高 192GB,比前代 MI250X(128 GB)高 50%。該內(nèi)存將提供高達(dá) 5.3 TB / s 的帶寬和 896 GB/s 的 Infinity Fabric 帶寬。







AMD 為 MI300X 配備了 8 個(gè) HBM3 堆棧,每個(gè)堆棧為 12-Hi,同時(shí)集成了 16 Gb IC,每個(gè) IC 為 2 GB 容量或每個(gè)堆棧 24 GB。
相比之下,NVIDIA 即將推出的 H200 AI 加速器提供 141 GB 容量,而英特爾的 Gaudi 3 將提供 144 GB 容量。
在功耗方面,AMD Instinct MI300X 的額定功率為 750W,比 Instinct MI250X 的 500W 增加了 50%,比 NVIDIA H200 增加了 50W。
其中一種配置是技嘉的 G593-ZX1 / ZX2 系列服務(wù)器,提供多達(dá) 8 個(gè) MI300X GPU 加速器和兩個(gè) AMD EPYC 9004 CPU。這些系統(tǒng)將配備多達(dá) 8 個(gè) 3000W 電源,總功率為 18000W。





廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。