蘇姿豐2小時激情演講!發(fā)布AMD最強(qiáng)AI芯片,旗艦CPU單顆10萬,OpenAI微軟都來站臺

2024-10-11 14:33:0117:26 66
所屬專輯:智東西
聲音簡介

五大硬核新品,轟向AI計算!

作者 | ZeR0

編輯 | 漠影

猛,實在是猛!就在今日,老牌芯片巨頭AMD交出了一份令人印象深刻的AI答卷。

智東西美國舊金山10月10日現(xiàn)場報道,酷熱的天氣剛剛過去,舊金山正值秋意涼爽,今日舉行的AMD Advancing AI 2024盛會卻格外火熱。

AMD傾囊倒出了一系列AI殺手锏,發(fā)布全新旗艦AI芯片、服務(wù)器CPU、AI網(wǎng)卡、DPU和AI PC移動處理器,將AI計算的戰(zhàn)火燒得更旺。

這家芯片巨頭還大秀AI朋友圈,現(xiàn)場演講集齊了谷歌、OpenAI、微軟、Meta、xAI、Cohere、RekaAI等重量級AI生態(tài)伙伴。

備受期待的旗艦AI芯片AMD Instinct MI325X GPU首次啟用HBM3E高帶寬內(nèi)存,8卡AI峰值算力達(dá)到21PFLOPS,并與去年發(fā)布的、同樣采用HBM3E的英偉達(dá)H200 GPU用數(shù)據(jù)掰手腕:內(nèi)存容量是H200的1.8倍,內(nèi)存帶寬、FP16和FP8峰值理論算力都是H200的1.3倍。

AMD還披露了最新的AI芯片路線圖,采用CDNA 4架構(gòu)的MI350系列明年上市,其中8卡MI355X的AI峰值算力達(dá)到74PFLOPS,MI400系列將采用更先進(jìn)的CDNA架構(gòu)。

更高的數(shù)據(jù)中心算力,離不開先進(jìn)的網(wǎng)絡(luò)解決方案。對此,AMD發(fā)布了業(yè)界首款支持UEC超以太網(wǎng)聯(lián)盟的AI網(wǎng)卡Pensando Pollara 400和性能翻倍提升的Pensando Salina 400 DPU。

另一款重磅新品是第五代EPYC服務(wù)器CPU,被AMD稱為“面向云計算、企業(yè)級和AI的全球最好CPU”,采用臺積電3/4nm制程工藝,最多支持192核、384個線程。其中頂配EPYC 9965默認(rèn)熱設(shè)計功耗500W,以1000顆起訂的單價為14813美元。

與第五代英特爾至強(qiáng)鉑金8592+處理器相比,AMD EPYC 9575F處理器的SPEC CPU性能提高多達(dá)2.7倍,企業(yè)級性能提高多達(dá)4.0倍,HPC性能提高多達(dá)3.9倍,基于CPU的AI加速提高多達(dá)3.8倍,GPU主機(jī)節(jié)點(diǎn)提升多達(dá)1.2倍。

自2017年重回數(shù)據(jù)中心市場后,AMD一路勢頭強(qiáng)勁:其數(shù)據(jù)中心CPU收入市占率在2018年還只有2%,今年上半年已攀爬到34%,在全球覆蓋超過950個云實例和超過350個OxM平臺。

AMD是唯一一家能夠提供全套CPU、GPU和網(wǎng)絡(luò)解決方案來滿足現(xiàn)代數(shù)據(jù)中心所有需求的公司。

AI PC芯片也迎來了新成員——AMD第三代商用AI移動處理器銳龍AI PRO 300系列。它被AMD稱作“為下一代企業(yè)級AI PC打造的全球最好處理器”,預(yù)計到2025年將有超過100款銳龍AI PRO PC上市。

01.

旗艦AI芯片三代同堂:

內(nèi)存容量帶寬暴漲,峰值算力沖9.2PF

AI芯片,正成為AMD業(yè)務(wù)增長的重頭戲。

AMD去年12月發(fā)布的Instinct MI300X加速器,已經(jīng)成為AMD歷史上增長最快的產(chǎn)品,不到兩個季度銷售額就超過了10億美元。

今年6月,AMD公布全新年度AI GPU路線圖,最新一步便是今日發(fā)布的Instinct MI325X。在7月公布季度財報時,AMD董事會主席兼CEO蘇姿豐博士透露,AMD預(yù)計其今年數(shù)據(jù)中心GPU收入將超過45億美元。

微軟、OpenAI、Meta、Cohere、Stability AI、Lepton AI、World Labs等公司的很多主流生成式AI解決方案均已采用MI300系列AI芯片。

微軟董事長兼CEO薩提亞·納德拉對MI300贊譽(yù)有加,稱這款A(yù)I加速器在微軟Azure工作負(fù)載的GPT-4推理上提供了領(lǐng)先的價格/性能。

基于Llama 3.1 405B運(yùn)行對話式AI、內(nèi)容生成、AI Agent及聊天機(jī)器人、總結(jié)摘要等任務(wù)時,MI300的推理速度最多達(dá)到英偉達(dá)H100的1.3倍。

新推出的MI325X進(jìn)一步抬高性能,跑Mixtral 8x7B、Mistral 7B、Llama 3.1 70B等大模型的推理性能,比英偉達(dá)H200快20%~40%。

MI325X擁有1530億顆晶體管,采用CDNA 3架構(gòu)、256GB HBM3E內(nèi)存,內(nèi)存帶寬達(dá)6TB/s,F(xiàn)P8峰值性能達(dá)到2.6PFLOPS,F(xiàn)P16峰值性能達(dá)到1.3PFLOPS。

由8張MI325X組成的服務(wù)器平臺有2TB HBM3E內(nèi)存;內(nèi)存帶寬達(dá)到48TB/s;Infinity Fabric總線帶寬為896GB/s;FP8性能最高達(dá)20.8PFLOPS,F(xiàn)P16性能最高達(dá)10.4PFLOPS。

相比英偉達(dá)H200 HGX,MI325X服務(wù)器平臺在跑Llama 3.1 405B時,推理性能可提高40%。

從訓(xùn)練性能來看,單張MI325X訓(xùn)練Llama 2 7B的速度超過單張H200,8張MI325X訓(xùn)練Llama 2 70B的性能比肩H200 HGX。

AMD Instinct MI325X加速器或?qū)⒂诮衲甑谒募径韧懂a(chǎn),將從明年第一季度起為平臺供應(yīng)商提供。

下一代MI350系列采用3nm制程工藝、新一代CDNA 4架構(gòu)、288GB HBM3E內(nèi)存,新增對FP4/FP6數(shù)據(jù)類型的支持,推理性能相比基于CDNA 3的加速器有高達(dá)35倍的提升,有望在2025年下半年上市。

MI355X加速器的FP8和FP16性能相比MI325X提升了80%,F(xiàn)P16峰值性能達(dá)到2.3PFLOPS,F(xiàn)P8峰值性能達(dá)到4.6PFLOPS,F(xiàn)P6和FP4峰值性能達(dá)到9.2PFLOPS。

8張MI355X共有2.3TB HBM3E內(nèi)存,內(nèi)存帶寬達(dá)到64TB/s,F(xiàn)P16峰值性能達(dá)到18.5PFLOPS,F(xiàn)P8峰值性能達(dá)到37PFLOPS,新增FP6和FP4的峰值性能為74PFLOPS。

三代GPU的配置顯著升級:相比8卡MI300X,8卡MI355X的AI峰值算力提升多達(dá)7.4倍、HBM內(nèi)存提高多達(dá)1.5倍、支持的模型參數(shù)量提升幅度接近6倍。

AMD持續(xù)投資軟件和開放生態(tài)系統(tǒng),在AMD ROCm開放軟件棧中提供新特性和功能,可原生支持主流AI框架及工具,具備開箱即用特性,搭配AMD Instinct加速器支持主流生成式AI模型及Hugging Face上的超過100萬款模型。

ROCm 6.2現(xiàn)包括對關(guān)鍵AI功能的支持,如FP8數(shù)據(jù)類型、Flash Attention、內(nèi)核融合等,可將AI大模型的推理性能、訓(xùn)練性能分別提升至ROCm 6.0的2.4倍、1.8倍。

此前AMD收購了歐洲最大的私人AI實驗室Silo AI,以解決消費(fèi)級AI最后一英里問題,加快AMD硬件上AI模型的開發(fā)和部署。歐洲最快的超級計算機(jī)LUMI便采用AMD Instinct加速器來訓(xùn)練歐洲語言版的大語言模型。

02.

下一代AI網(wǎng)絡(luò):后端引入業(yè)界首款支持UEC的AI網(wǎng)卡,前端上新400G可編程DPU

網(wǎng)絡(luò)是實現(xiàn)最佳系統(tǒng)性能的基礎(chǔ)。AI模型平均有30%的訓(xùn)練周期時間都花在網(wǎng)絡(luò)等待上。在訓(xùn)練和分布式推理模型中,通信占了40%-75%的時間。

AI網(wǎng)絡(luò)分為前端和后端:前端向AI集群提供數(shù)據(jù)和信息,可編程DPU不斷發(fā)展;后端管理加速器與集群間的數(shù)據(jù)傳輸,關(guān)鍵在于獲得最大利用率。

為了有效管理這兩個網(wǎng)絡(luò),并推動整個系統(tǒng)的性能、可擴(kuò)展性和效率提升,AMD今日發(fā)布了應(yīng)用于前端網(wǎng)絡(luò)的Pensando Salina 400 DPU和應(yīng)用于后端網(wǎng)絡(luò)的Pensando Pollara 400網(wǎng)卡。

Salina 400是AMD第三代可編程DPU,被AMD稱作“前端網(wǎng)絡(luò)最佳DPU”,其性能、帶寬和規(guī)模均提高至上一代DPU的兩倍;Pollara 400是業(yè)界首款支持超以太網(wǎng)聯(lián)盟的AI網(wǎng)卡。

Salina 400支持400G吞吐量,可實現(xiàn)快速數(shù)據(jù)傳輸速率,可為數(shù)據(jù)驅(qū)動的AI應(yīng)用優(yōu)化性能、效率、安全性和可擴(kuò)展性。

Pollara 400采用AMD P4可編程引擎,支持下一代RDMA軟件,并以開放的網(wǎng)絡(luò)生態(tài)系統(tǒng)為后盾,對于在后端網(wǎng)絡(luò)中提供加速器到加速器通信的領(lǐng)先性能、可擴(kuò)展性和效率至關(guān)重要。

UEC Ready RDMA支持智能數(shù)據(jù)包噴發(fā)和有序消息傳遞、避免擁塞、選擇性重傳和快速損失恢復(fù)。這種傳輸方式的消息完成速度是RoCEv2的6倍,整體完成速度是RoCEv2的5倍。

在后端網(wǎng)絡(luò),相比InfiniBand,以太網(wǎng)RoCEv2是更好的選擇,具有低成本、高度可擴(kuò)展的優(yōu)勢,可將TCO節(jié)省超過50%,能夠擴(kuò)展100萬張GPU。而InfiniBand至多能擴(kuò)展48000張GPU。

03.

服務(wù)器CPU:

3/4nm制程,最多192核/384線程

今年7月公布財報時,蘇姿豐提到今年上半年,有超過1/3的企業(yè)服務(wù)器訂單來自首次在其數(shù)據(jù)中心部署EPYC服務(wù)器CPU的企業(yè)。

第五代EPYC處理器9005系列專為現(xiàn)代數(shù)據(jù)中心設(shè)計。

該處理器在計算、內(nèi)存、IO與平臺、安全四大層面全面升級。

第五代EPYC擁有1500億顆晶體管,采用臺積電3/4nm 制程、全新“Zen 5” 及“Zen 5c”核心兼容廣泛部署的SP5平臺,最多支持192核、384個線程,8~192核的功耗范疇為155W~500W。

它支持AVX-512全寬512位數(shù)據(jù)路徑、128 PCIe 5.0/CXL 2.0、DDR5-6400MT/s內(nèi)存速率,提升頻率高達(dá)5GHz,機(jī)密計算的可信I/O和FIPS認(rèn)證正在進(jìn)行中。

與“Zen 4”相比,“Zen 5”核心架構(gòu)為企業(yè)和云計算工作負(fù)載提供了提升17%的IPC,為AI和HPC提供了提升37%的IPC。

在SPEC CPU 2017基準(zhǔn)測試中,192核EPYC 9965的整數(shù)吞吐量是64核至強(qiáng)8592+的2.7倍,32核EPYC 9355的每核心性能是32核6548Y+的1.4倍。

跑視頻轉(zhuǎn)碼、商用App、開源數(shù)據(jù)庫、圖像渲染等商用工作負(fù)載時,192核EPYC 9965的性能達(dá)到64核至強(qiáng)8592+性能的3~4倍。

在處理開源的HPC密集線性求解器、建模和仿真任務(wù)時,EPYC 9965的性能可達(dá)到至強(qiáng)8592+性能的2.1~3.9倍。

達(dá)到相同性能,第五代EPYC所需的服務(wù)器數(shù)量更少,有助于降低數(shù)據(jù)中心的TCO以及節(jié)省空間和能源。

例如,要達(dá)到總共391000個單位的SPECrate 2017_int_base性能得分,相比1000臺搭載英特爾至強(qiáng)鉑金8280的服務(wù)器,現(xiàn)在131臺搭載AMD EPYC 9965的現(xiàn)代服務(wù)器就能實現(xiàn),功耗、3年TCO均顯著減少。

通過優(yōu)化的CPU+GPU解決方案,AMD EPYC CPU不僅能處理傳統(tǒng)通用目的的計算,而且能勝任AI推理,還能作為AI主機(jī)處理器。

相比64核至強(qiáng)8592+,192核EPYC 9965在運(yùn)行機(jī)器學(xué)習(xí)、端到端AI、相似搜索、大語言模型等工作負(fù)載時,推理性能提升多達(dá)1.9~3.8倍。

AMD EPYC 9005系列的新產(chǎn)品是64核EPYC 9575F,專為需要終極主機(jī)CPU能力的GPU驅(qū)動AI解決方案量身定制。

與競爭對手的3.8GHz處理器相比,專用AI主機(jī)的CPU EPYC 9575F提供了高達(dá)5GHz的提升,可將GPU編排任務(wù)的處理速度提高28%。

面向企業(yè)級HPC工作負(fù)載,64核EPYC 9575F的FEA仿真和CFD仿真&建模的性能,可提升至64核至強(qiáng)8592的1.6倍。

EPYC 9575F可使用其5GHz的最大頻率提升來助力1000個節(jié)點(diǎn)的AI集群每秒驅(qū)動多達(dá)70萬個推理token。同樣搭配MI300X GPU,與64核至強(qiáng)8592+相比,EPYC 9575F將GPU系統(tǒng)訓(xùn)練Stable Diffusion XL v2文生圖模型的性能提升20%。

搭配Instinct系列GPU的AMD EPYC AI主機(jī)CPU型號如下:

同樣搭配英偉達(dá)H100,EPYC 9575F可將GPU系統(tǒng)的推理性能、訓(xùn)練性能分別相比至強(qiáng)8592+提升20%、15%。

與英偉達(dá)GPU系統(tǒng)適配的AMD EPYC AI主機(jī)CPU型號如下:

將EPYC用于計算與AI混合工作負(fù)載時,相比至強(qiáng)鉑金8592+,EPYC 9654+2張Instinct MI210在處理50%通用計算+50% AI的混合任務(wù)時,每美元性能可提升多達(dá)2倍。

04.

企業(yè)級AI PC處理器:

升級“Zen 5”架構(gòu),AI算力最高55TOPS

AI PC給企業(yè)生產(chǎn)力、身臨其境的遠(yuǎn)程協(xié)作、創(chuàng)作與編輯、個人AI助理都帶來了全新轉(zhuǎn)型體驗。

繼今年6月推出第三代AI移動處理器銳龍AI 300系列處理器后,今日AMD宣布推出銳龍AI PRO 300系列。

該處理器專為提高企業(yè)生產(chǎn)力而設(shè)計,采用4nm工藝、“Zen 5” CPU架構(gòu)、RDNA 3.5 GPU架構(gòu),支持Copilot+功能,包括電話會議實時字幕、語言翻譯、AI圖像生成等。

其內(nèi)置NPU可提供50-55TOPS的AI處理能力。

40TOPS是微軟Copilot+ AI PC的基準(zhǔn)要求。相比之下,蘋果M4、AMD銳龍PRO 8040系列、英特爾酷睿Ultra 100系列的NPU算力分別為38TOPS、16TOPS、11TOPS。

與英特爾酷睿Ultra 7 165H相比,旗艦銳龍AI 9 HX PRO 375的多線程性能提高了40%,辦公生產(chǎn)力提高了14%,支持更長續(xù)航。

銳龍AI PRO 300系列采用AMD PRO技術(shù),提供世界級領(lǐng)先的安全性和可管理性,旨在簡化IT運(yùn)營及部署并確保企業(yè)獲得卓越的投資回報率。

由搭載銳龍AI PRO 300系列的OEM系統(tǒng)預(yù)計將于今年晚些時候上市。

AMD也擴(kuò)展了其PRO技術(shù)陣容,具有新的安全性和可管理性功能。配備AMD PRO技術(shù)的移動商用處理器現(xiàn)有云裸機(jī)恢復(fù)的標(biāo)準(zhǔn)配置,支持IT團(tuán)隊通過云無縫恢復(fù)系統(tǒng),確保平穩(wěn)和持續(xù)的操作;提供一個新的供應(yīng)鏈安全功能,實現(xiàn)整個供應(yīng)鏈的可追溯性;看門狗定時器,提供額外的檢測和恢復(fù)過程,為系統(tǒng)提供彈性支持。

通過AMD PRO技術(shù),還能實現(xiàn)額外的基于AI的惡意軟件檢測。這些全新的安全特性利用集成的NPU來運(yùn)行基于AI的安全工作負(fù)載,不會影響日常性能。

05.

結(jié)語:AMD正在數(shù)據(jù)中心市場攻勢兇猛

AMD正沿著路線圖,加速將AI基礎(chǔ)設(shè)施所需的各種高性能AI解決方案推向市場,并不斷證明它能夠提供滿足數(shù)據(jù)中心需求的多元化解決方案。

AI已經(jīng)成為AMD戰(zhàn)略布局的焦點(diǎn)。今日新發(fā)布的Instinct加速器、EPYC服務(wù)器CPU、Pensando網(wǎng)卡&DPU、銳龍AI PRO 300系列處理器,與持續(xù)增長的開放軟件生態(tài)系統(tǒng)形成了組合拳,有望進(jìn)一步增強(qiáng)AMD在AI基礎(chǔ)設(shè)施競賽中的綜合競爭力。

無論是蠶食服務(wù)器CPU市場,還是新款A(yù)I芯片半年攬金逾10億美元,都展現(xiàn)出這家老牌芯片巨頭在數(shù)據(jù)中心領(lǐng)域的沖勁。緊鑼密鼓的AI芯片產(chǎn)品迭代、快速擴(kuò)張的全棧軟硬件版圖,都令人愈發(fā)期待AMD在AI計算市場創(chuàng)造出驚喜。

用戶評論

表情0/300
喵,沒有找到相關(guān)結(jié)果~
暫時沒有評論,下載喜馬拉雅與主播互動
猜你喜歡
喬布斯激情演講

傾聽喬布斯演講,發(fā)揮創(chuàng)造力價值。

by:Mira英語

最勵志的演講:激情成就夢想

歡迎您訂閱本專輯:《激情成就夢想》記錄了一個共產(chǎn)黨員的高尚情操,一名藝術(shù)家的卓越風(fēng)采,展現(xiàn)了一個兒子對母親的赤誠,一位長輩對晚輩的企盼。人生不可能到處都是鮮...

by:新辰V

馬云2018互聯(lián)網(wǎng)創(chuàng)業(yè)激情演講

新的一輪網(wǎng)絡(luò)財富波已經(jīng)到來!您注意到了嗎?很多寶媽,上班族,大學(xué)生,微商,傳統(tǒng)生意老板等,通過互聯(lián)網(wǎng),一部手機(jī)運(yùn)作短短一兩個月就收入過萬了,有些甚至更多,簡單...

by:輕云教練

6小時聽完吳晗《明史簡述》學(xué)術(shù)演講稿

《明史簡述》是吳晗同志一九六二年十一月在中央高級黨校講課時的記錄稿。吳晗同志用通俗的語言,深入淺出地介紹了明朝政治、經(jīng)濟(jì)、軍事等方面的基本情況,并把自己的研究成...

by:紛呈呈

第25小時

小雅Nano火爆搶購!不管是站著坐著躺著趴著,還是洗澡做飯晨起睡前,小雅都能給你播放1億+的好內(nèi)節(jié)目。更有獨(dú)家會員內(nèi)容,萬部付費(fèi)精品,讓你想怎么聽就怎么聽。小...

by:小雅AI硬件

48小時

生命從哪一秒開始的倒計時,你永遠(yuǎn)不會知道。我以為那是一條走不完的路,可不經(jīng)意間就成了孤身一人。肩膀旁邊的那個位置空了出來,搭在一起走的那個人,那些人,什么時候...

by:sherry六六

銷售大師金克拉頂尖人物激情演講

本音頻主播于20多年前,通過錄音機(jī)磁帶播放,用Win98系統(tǒng)上的錄音功能收錄成MP3格式音頻,金克拉作為國際頂頂有名的銷售大師,他的激情演講,放在...

by:睿學(xué)常伴