AMD Instinct MI350系列GPU发布:AI算力领先上代3倍 八卡2.3TB HBM3E内存
- +1 你赞过了
【天极网企业频道】美国加利福尼亚州圣克拉拉现场报道,当地时间6月12日,在AMD Advancing AI 2025上,AMD正式发布全新Instinct MI350系列AI加速器——AMD Instinct MI350X和MI355X,提供4倍AI算力的代际提升,以及跃升35倍的推理性能,满足行业当前对于AI算力的迫切需求。同时,AMD还推出了全新ROCm 7、AMD Pensando Pollara 400 NIC网卡,并整合领先的GPU、CPU、网络及开放软件生态优势,打造了更高算力密度、更灵活且易扩展的新一代AI基础设施解决方案。
Instinct GPU是AMD近年来市场表现最好的产品之一。据AMD介绍,其行业采用率稳步提升,目前10家大型AI公司中有7家采用了AMD Instinct。同时AMD围绕ROCm开发平台快速推进开放软件能力,软硬件协同满足现代AI应用需求,为头部模型提供Day-0支持(首发即兼容)、持续加快创新步伐、拓展生态合作伙伴、践行开发者优先。
Instinct MI350系列是首款采用CNDA 4架构的AI加速卡,晶体管数量高达1850亿个(比去年发布的MI325X增加了320亿个),其中Instinct MI350X峰值功耗1000W、面向风冷系统;Instinct MI355X峰值功耗1400W,支持液冷散热设计。
两款GPU的具体规格如下。
作为Instinct MI350系列性能升级的关键之一,AMD CDNA 4架构聚焦AI加速计算,集成用于生成式AI和大语言模型的增强型矩阵引擎;在支持FP8、FP16精度的基础上,新增支持FP4和FP6低精度格式,更好地满足现代AI推理任务需求;采用了增强型无限互联架构与先进的封装技术。
具体来看,Instinct MI350系列的CDNA 4架构中拥有8个采用台积电N3P制程工艺的XCD(计算模块),并分成两个XCD集群,集群之间通过5.5 TB/s的Infinity Fabric Advanced Package实现高速互联。每个XCD拥有32个CU计算单元(共256个CU)、共享4MB二级缓存。
同时,AMD通过先进的模块化小芯片封装技术提供更高的计算密度和能效。其中,XCD单元通过3D混合键合架构堆叠在2个采用台积电N6工艺的IOD(IO模块)上,芯片集成的8颗HBM3E内存则通过2.5D封装技术与IOD整合。
Instinct MI350系列GPU支持128条HBM3E内存通道,HBM3E的单颗容量提升至36GB,总体内存容量达到了288GB,内存带宽提升至8TB/s。同时,通过增加UTCL1/UTCL2大小选项、优化内存流水线等方式,更好地支撑AI应用等高带宽负载。
另外,Instinct MI350系列GPU拥有256MB AMD Infinity Cache,且采用带宽速率高达1075GB/s的第四代Infinity Fabric。
Instinct MI350系列GPU支持最多8个空间分区,充分提升GPU利用率。其中NPS模式(NUMA Per Socket)从Instinct MI300X的NPS1和NPS4新增支持NPS1和NPS2。在SPX+NPS1模式下,Instinct MI350系列GPU最高实现单卡支持520B参数AI大模型;而在CPX+NPS2模式下,则可以支持多达8个Llama 3.1 70B参数大模型应用。
此外,Instinct MI350系列GPU在功耗没有翻倍的情况下,提供了双倍计算吞吐量。并且利用增强内存带宽和本地数据共享,可支持更高的计算吞吐量。AMD表示,Instinct MI350X的HBM内存读取带宽每瓦性能相比MI300X GPU最高提升30%;每个计算单元(CU)的HBM峰值读取带宽速度提升超过50%。
性能方面,Instinct MI355X的FP64算力达到79TFLOPS;FP16达到5PFLOPS,FP8达到10PFLOPS,算力是MI325X的近4倍。与此同时,Instinct MI355X新增支持的FP4、FP6算力高达20PFLOPS。
Instinct MI350系列卓越的性能可以更好地应对广泛AI用例及高性能计算等严苛需求。根据AMD公布的数据,在基于Llama 3.1 405B模型的AI智能体与Chatbot、内容生成、总结、对话式AI等测试中,Instinct MI355X相比MI300X平均有3倍性能提升。
在主流大模型的实测吞吐量方面,凭借支持FP4精度,Instinct MI355X的DeepSeek R1性能达到了MI300X的3倍,Llama 4 Maverick性能领先MI300X约3.3倍。
在大模型预训练、微调等场景中,Instinct MI355X的性能最高可以达到MI300X的3.5倍。
Instinct MI355X对比NVIDIA B200/GB200,从内存容量到各种数据类型的算力几乎全面领先。其中,FP6算力更是达到了NVIDIA B200的2.2倍。
在FP4精度下,Instinct MI355X吞吐量领先NVIDIA B200约30%。在模型微调场景中,Instinct MI355X性能领先NVIDIA B200/GB200约10%,模型预训练性能不相上下。
值得关注的是,相比NVIDIA B200,Instinct MI355X拥有更出色的经济性,每美元生成的Token最多增加40%。
Instinct MI350系列也可以组成八卡计算平台,内存提升至2.3TB HBM3E,内存带宽为64TB/s,FP64算力达到0.63PFLOPS,FP16算力达到40.2PFLOPS,FP8算力达到81PFLOPS,FP4/FP6算力可以达到161PFLOPS。
刚刚提到Instinct MI350系列计算平台根据部署需求可支持风冷、液冷散热解决方案,其中采用风冷的单机柜可以部署64颗GPU,而液冷则最高支持128颗GPU。由此打造的AI基础设施能够提供更高的算力密度,节省数据中心空间。例如,Instinct MI355X的液冷解决方案可提供高达36TB HBM3E内存,FP16算力达到644PFLOPS,FP8算力达到1.28EFLOPS,FP6/FP4算力达到2.57EFLOPS。
AMD与ORACLE、Dell、CISCO等合作伙伴基于Instinct MI350系列打造的整机系统、基础设施解决方案将于今年第三季度陆续推出。
AMD还透露Instinct MI400系列GPU将于2026年发布,提供高达40PFLOPS的FP4、20PFLOPS的FP8算力,内存提升到432GB HBM4,内存带宽高达19.6TB/s。AMD表示,Instinct MI400系列将带来AI计算性能的跃升,相比MI355X提升最多超过10倍的性能!
与此同时AMD也介绍了其下一代AI基础设施解决方案“Helios”,该方案将于2026年正式亮相,采用下一代Instinct MI400系列GPU、Zen 6架构的EPYC “Venice”CPU、Pensando“Vulcano”网络解决方案构建。据介绍,“Helios”将拥有,内存带宽提升至1.4PB/s,FP4、FP8的算力将达到2.9EFLOPS/1.4EFLOPS。
到了2027年,AMD还将推出基于Instinct MI500系列GPU、EPYC “Verano”CPU、Pensando“Vulcano”网络解决方案的下一代AI基础设施解决方案。
写在最后
2025年,大模型已经迈入规模化落地阶段,不仅头部企业持续探索模型性能极限,行业与企业的智能化转型也已经迈入深水区,还有大模型在云端、边缘、终端部署加速,共同造就了AI多元化发展新趋势,也对AI算力提出了更严峻的考验和迫切需求。数据显示,数据中心AI加速器市场规模以超过60%的复合年均增长率快速发展,到2028年将超过5000亿美元,其中推理的复合年均增长率更是超过了80%。
AMD Instinct MI350系列凭借全新CDNA 4架构、更大内存、更高吞吐量、更高性能、灵活扩展等升级,不仅可以满足高负载AI和高性能计算需求,还具备出色的经济性,助力数据中心、企业降低TCO。根据AMD公布的信息,目前已经“超预期”实现了30x25目标,即与2020年相比,将加速计算节点的能效提升30倍。通过4个AMD Instinct MI355X GPU和1个AMD EPYC第五代CPU,实现了比基础系统38倍的性能提升。这意味着与五年前的系统相比,相同性能下的能耗减少了97%,充分降低企业或数据中心的运营成本。
AMD表示从2024年到2030年将通过优化AI训练和推理的机架级能效,实现20倍的提升。AMD表示,这一提升将比2018年至2025年间行业整体的改进趋势高出近3倍,意味着2030年只需要一台完全利用的机架就可以执行当前需要超过275个机架的工作负载,并节省95%的能耗。而且结合软件和算法的进步,到2030年训练一个典型AI模型的整体能效可能提高100倍。
引人关注的是,AMD不仅是带来全新GPU,还发布了ROCm 7、AMD Pensando Pollara 400 NIC网卡等软硬件产品,整合后可以携手合作伙伴构筑灵活易用的AI基础设施以及开放的软件生态。而且把视线继续拉远,就会看到AMD布局的端到端AI解决方案已经覆盖从AI PC等终端设备到数据中心的算力底座,从硬件到软件的全链路,且持续优化能效、经济性,赋能千行万业的智能化发展,可以预见未来还将有更多企业采用AMD Instinct、EPYC等解决方案将AI算力转化为生产力或更出色的用户体验。
最新资讯
热门视频
新品评测