华为周跃峰谈AI存储创新:以长记忆内存型存储释放大模型真正价值
- +1 你赞过了
【天极网企业频道】“中国各行各业正在积极地将AI视为新质生产力,但数据要素如何能够真正用起来是一大挑战。因此,数据资产怎么做好有效管理,确保数据的安全存储,并使其能够更好地支持上层计算中的读写应用变化,成为这个时代非常迫切的要求。简而言之,市场需求确实需要存储厂商做出相应的变化。”在谈到华为选择在当下的时间节点推出全闪存存储与AI存储的原因时,华为公司副总裁、数据存储产品线总裁周跃峰如是说道。
华为公司副总裁、数据存储产品线总裁周跃峰
使能训练与推理
在前不久举办的华为全联接大会2024(HUAWEI CONNECT 2024)上,华为发布了两款数据存储新品,一是以长记忆内存新范式全面提升AI大模型训练和推理能力的全新AI存储OceanStor A800;二是具备极致性能、极致韧性、AI-Ready三大特性的新一代OceanStor Dorado全闪存存储。
随着AI技术的迅猛发展,产业数智化进程显著加快,数据规模呈现爆炸式增长的同时,其潜在价值也在不断提升。然而,随之而来的是一系列技术挑战,如xPU与存储的带宽不足、算力集群可用度低、推理时延长等,这些都对存储提出更高要求。
华为发布全新AI存储OceanStor A800,在AI大模型高效训练能力的基础上,大幅增强推理能力,并在集群性能、新数据范式上有了跨越式提升。
第一,单套AI存储设备支持十万卡级大模型训练。通过构建前端网卡全共享、控制器与后端SSD盘全互联的技术架构,单套存储设备可支持10万卡级集群全互联。一套OceanStor A800 存储最多可实现与19.2万卡训练集群的静态全连接,性能提升40%,空间占用降低80%。
第二,以存强算,AI集群可用度提升30%。AI训练中断频频发生,据统计AI训练中心持续训练的时间最长仅为2.6天,导致GPU/NPU必须反复保存CKPT数据。中国移动将华为OceanStor AI存储用于大模型训练,实现150PB单存储集群、8TB/s带宽和2.3亿IOPS的能力,端到端训练效率提升5%,为后续更大规模的大模型训练提供支撑。
“这充分证明了采用AI存储技术实现既定目标的可行性,并为行业树立了基准。”周跃峰说。他还指出,此基准测试是在华为与中国移动的合作框架下完成的,其多项性能指标超越了美国很多AI系统。
第三,以存代算,长记忆内存型存储提升推理体验并降低系统成本。OceanStor A800创新性采用多级KV缓存机制,将所有的思考结果持久化保存并高效使用,让大模型推理具备长记忆能力,减少在Prefill阶段的重复计算,客户推理时延降低78%,单个xPU卡的吞吐量提升63%,大幅提升推理体验的同时降低成本。
周跃峰表示,此次发布的AI存储产品与以往的存储完全不同。尽管在AI发展的初期,对于是否需要引入新功能存在一定的争议,认为传统存储可以实现这些功能。但华为坚信,面向未来,一个高效、绿色且成本更低的存储系统,才是推动AI持续健康发展、实现商业良性循环的关键所在。
加速业务与AI融合
当前,AI大模型正迅速融入并重塑各行业业务场景,企业的数据基础设施须确保能充分支撑AI应用的运行与扩展。同时,在面对日益严峻的数据安全威胁时,建立一个更加高效且可靠的数据基础设施已成为行业共识。
在此背景下,华为发布了新一代OceanStor Dorado全闪存存储,旨在加速企业生产核心业务步入AI时代。具体来看:
第一,极致性能。新一代全闪存软硬件全面升级,智能DPU(数据处理单元)网卡提供数据流和控制流分离能力,打破处理器性能瓶颈,以专用硬件功能卡卸载CPU算力,开启增值特性功能后性能无损。软硬件深度协同释放性能,全新升级的FLASHLINK® 智能盘控卡协同算法,达成存储系统亿级IOPS、0.03毫秒ms低时延,相较上一代全闪存存储产品提升性能3倍。
第二,极致韧性。新一代SmartMatrix全局互联架构,容忍引擎、硬盘框、机柜多层故障,单设备可靠性达99.99999%,极端场景下支持8个引擎7个故障时业务仍恒稳在线。此外,新一代OceanStor Dorado支持SAN和NAS全域防勒索,勒索病毒检测率最高达99.99%。通过智能快照关联分析及智能合成技术,保障数据恢复100%可用。
周跃峰指出,国内一些中高端存储并没有集成数据安全的功能,这是一个非常严重的问题。首先,勒索病毒攻击事件层出不穷,会严重影响企业的正常运作。其次,大量的企业在构建存储系统时没有将存储系统中的安全特性作为技术要求,将会带来太多隐患。因此他认为,数据存储除了需确保数据的妥善保存,以防自然环境对数据造成损害外,还需加强对人为因素的防范,确保数据安全。“数据安全隐患有时候是零和一的关系,丢了就是丢了。”
第三,AI-Ready。新一代OceanStor Dorado全闪存存储采用原生统一存储架构,支持数据库、文件、容器等多样化应用,广泛承载AI时代多样化生产核心数据存储需求。通过DME数据管理引擎实现对话式运维,并利用大模型技术主动发现异常,运维效率提升5倍。
“之所以称为‘AI-Ready’,主要原因在于服务于众多尚处于AI建设初级阶段和探索阶段的客户。华为的目标是,当各个企业准备运用AI技术时,所需的数据已经处于就绪状态。”周跃峰说。
写在最后:
正如《周易》所言:“凡益之道,与时偕行。”这句话强调了,顺应时代发展的重要性。在当今瞬息万变的市场环境中,企业犹如航行于无垠大海之上的船只,面临着未知的挑战与机遇,而华为适时推出的全新AI存储OceanStor A800和新一代OceanStor Dorado全闪存存储,就如同稳固的船锚与强劲的风帆,在数智化大潮中为企业提供坚实支持,助力其稳健前行、扬帆远航。
最新资讯
热门视频
新品评测