AMD Instinct MI350系列GPU发布：AI算力领先上代3倍八卡2.3TB HBM3E内存

【天极网企业频道】美国加利福尼亚州圣克拉拉现场报道，当地时间6月12日，在AMD Advancing AI 2025上，AMD正式发布全新Instinct MI350系列AI加速器——AMD Instinct MI350X和MI355X，提供4倍AI算力的代际提升，以及跃升35倍的推理性能，满足行业当前对于AI算力的迫切需求。同时，AMD还推出了全新ROCm 7、AMD Pensando Pollara 400 NIC网卡，并整合领先的GPU、CPU、网络及开放软件生态优势，打造了更高算力密度、更灵活且易扩展的新一代AI基础设施解决方案。

Instinct GPU是AMD近年来市场表现最好的产品之一。据AMD介绍，其行业采用率稳步提升，目前10家大型AI公司中有7家采用了AMD Instinct。同时AMD围绕ROCm开发平台快速推进开放软件能力，软硬件协同满足现代AI应用需求，为头部模型提供Day-0支持（首发即兼容）、持续加快创新步伐、拓展生态合作伙伴、践行开发者优先。

Instinct MI350系列是首款采用CNDA 4架构的AI加速卡，晶体管数量高达1850亿个(比去年发布的MI325X增加了320亿个)，其中Instinct MI350X峰值功耗1000W、面向风冷系统;Instinct MI355X峰值功耗1400W，支持液冷散热设计。

两款GPU的具体规格如下。

作为Instinct MI350系列性能升级的关键之一，AMD CDNA 4架构聚焦AI加速计算，集成用于生成式AI和大语言模型的增强型矩阵引擎;在支持FP8、FP16精度的基础上，新增支持FP4和FP6低精度格式，更好地满足现代AI推理任务需求;采用了增强型无限互联架构与先进的封装技术。

具体来看，Instinct MI350系列的CDNA 4架构中拥有8个采用台积电N3P制程工艺的XCD(计算模块)，并分成两个XCD集群，集群之间通过5.5 TB/s的Infinity Fabric Advanced Package实现高速互联。每个XCD拥有32个CU计算单元(共256个CU)、共享4MB二级缓存。

同时，AMD通过先进的模块化小芯片封装技术提供更高的计算密度和能效。其中，XCD单元通过3D混合键合架构堆叠在2个采用台积电N6工艺的IOD(IO模块)上，芯片集成的8颗HBM3E内存则通过2.5D封装技术与IOD整合。

Instinct MI350系列GPU支持128条HBM3E内存通道，HBM3E的单颗容量提升至36GB，总体内存容量达到了288GB，内存带宽提升至8TB/s。同时，通过增加UTCL1/UTCL2大小选项、优化内存流水线等方式，更好地支撑AI应用等高带宽负载。

另外，Instinct MI350系列GPU拥有256MB AMD Infinity Cache，且采用带宽速率高达1075GB/s的第四代Infinity Fabric。

Instinct MI350系列GPU支持最多8个空间分区，充分提升GPU利用率。其中NPS模式(NUMA Per Socket)从Instinct MI300X的NPS1和NPS4新增支持NPS1和NPS2。在SPX+NPS1模式下，Instinct MI350系列GPU最高实现单卡支持520B参数AI大模型;而在CPX+NPS2模式下，则可以支持多达8个Llama 3.1 70B参数大模型应用。

此外，Instinct MI350系列GPU在功耗没有翻倍的情况下，提供了双倍计算吞吐量。并且利用增强内存带宽和本地数据共享，可支持更高的计算吞吐量。AMD表示，Instinct MI350X的HBM内存读取带宽每瓦性能相比MI300X GPU最高提升30%;每个计算单元(CU)的HBM峰值读取带宽速度提升超过50%。

性能方面，Instinct MI355X的FP64算力达到79TFLOPS;FP16达到5PFLOPS，FP8达到10PFLOPS，算力是MI325X的近4倍。与此同时，Instinct MI355X新增支持的FP4、FP6算力高达20PFLOPS。

Instinct MI350系列卓越的性能可以更好地应对广泛AI用例及高性能计算等严苛需求。根据AMD公布的数据，在基于Llama 3.1 405B模型的AI智能体与Chatbot、内容生成、总结、对话式AI等测试中，Instinct MI355X相比MI300X平均有3倍性能提升。

在主流大模型的实测吞吐量方面，凭借支持FP4精度，Instinct MI355X的DeepSeek R1性能达到了MI300X的3倍，Llama 4 Maverick性能领先MI300X约3.3倍。

在大模型预训练、微调等场景中，Instinct MI355X的性能最高可以达到MI300X的3.5倍。

Instinct MI355X对比NVIDIA B200/GB200，从内存容量到各种数据类型的算力几乎全面领先。其中，FP6算力更是达到了NVIDIA B200的2.2倍。

在FP4精度下，Instinct MI355X吞吐量领先NVIDIA B200约30%。在模型微调场景中，Instinct MI355X性能领先NVIDIA B200/GB200约10%，模型预训练性能不相上下。

值得关注的是，相比NVIDIA B200，Instinct MI355X拥有更出色的经济性，每美元生成的Token最多增加40%。

Instinct MI350系列也可以组成八卡计算平台，内存提升至2.3TB HBM3E，内存带宽为64TB/s，FP64算力达到0.63PFLOPS，FP16算力达到40.2PFLOPS，FP8算力达到81PFLOPS，FP4/FP6算力可以达到161PFLOPS。

刚刚提到Instinct MI350系列计算平台根据部署需求可支持风冷、液冷散热解决方案，其中采用风冷的单机柜可以部署64颗GPU，而液冷则最高支持128颗GPU。由此打造的AI基础设施能够提供更高的算力密度，节省数据中心空间。例如，Instinct MI355X的液冷解决方案可提供高达36TB HBM3E内存，FP16算力达到644PFLOPS，FP8算力达到1.28EFLOPS，FP6/FP4算力达到2.57EFLOPS。

AMD与ORACLE、Dell、CISCO等合作伙伴基于Instinct MI350系列打造的整机系统、基础设施解决方案将于今年第三季度陆续推出。

AMD还透露Instinct MI400系列GPU将于2026年发布，提供高达40PFLOPS的FP4、20PFLOPS的FP8算力，内存提升到432GB HBM4，内存带宽高达19.6TB/s。AMD表示，Instinct MI400系列将带来AI计算性能的跃升，相比MI355X提升最多超过10倍的性能!

与此同时AMD也介绍了其下一代AI基础设施解决方案“Helios”，该方案将于2026年正式亮相，采用下一代Instinct MI400系列GPU、Zen 6架构的EPYC “Venice”CPU、Pensando“Vulcano”网络解决方案构建。据介绍，“Helios”将拥有，内存带宽提升至1.4PB/s，FP4、FP8的算力将达到2.9EFLOPS/1.4EFLOPS。

到了2027年，AMD还将推出基于Instinct MI500系列GPU、EPYC “Verano”CPU、Pensando“Vulcano”网络解决方案的下一代AI基础设施解决方案。

写在最后

2025年，大模型已经迈入规模化落地阶段，不仅头部企业持续探索模型性能极限，行业与企业的智能化转型也已经迈入深水区，还有大模型在云端、边缘、终端部署加速，共同造就了AI多元化发展新趋势，也对AI算力提出了更严峻的考验和迫切需求。数据显示，数据中心AI加速器市场规模以超过60%的复合年均增长率快速发展，到2028年将超过5000亿美元，其中推理的复合年均增长率更是超过了80%。

AMD Instinct MI350系列凭借全新CDNA 4架构、更大内存、更高吞吐量、更高性能、灵活扩展等升级，不仅可以满足高负载AI和高性能计算需求，还具备出色的经济性，助力数据中心、企业降低TCO。根据AMD公布的信息，目前已经“超预期”实现了30x25目标，即与2020年相比，将加速计算节点的能效提升30倍。通过4个AMD Instinct MI355X GPU和1个AMD EPYC第五代CPU，实现了比基础系统38倍的性能提升。这意味着与五年前的系统相比，相同性能下的能耗减少了97%，充分降低企业或数据中心的运营成本。

AMD表示从2024年到2030年将通过优化AI训练和推理的机架级能效，实现20倍的提升。AMD表示，这一提升将比2018年至2025年间行业整体的改进趋势高出近3倍，意味着2030年只需要一台完全利用的机架就可以执行当前需要超过275个机架的工作负载，并节省95%的能耗。而且结合软件和算法的进步，到2030年训练一个典型AI模型的整体能效可能提高100倍。

引人关注的是，AMD不仅是带来全新GPU，还发布了ROCm 7、AMD Pensando Pollara 400 NIC网卡等软硬件产品，整合后可以携手合作伙伴构筑灵活易用的AI基础设施以及开放的软件生态。而且把视线继续拉远，就会看到AMD布局的端到端AI解决方案已经覆盖从AI PC等终端设备到数据中心的算力底座，从硬件到软件的全链路，且持续优化能效、经济性，赋能千行万业的智能化发展，可以预见未来还将有更多企业采用AMD Instinct、EPYC等解决方案将AI算力转化为生产力或更出色的用户体验。

AMD Instinct MI350系列GPU发布：AI算力领先上代3倍 八卡2.3TB HBM3E内存

热门标签

AMD Instinct MI350系列GPU发布：AI算力领先上代3倍八卡2.3TB HBM3E内存