加速大模型多维度创新 DeepSeek为AI产业带来新浪潮与新机遇
- +1 你赞过了
【天极网企业频道】2025年开年,DeepSeek就向AI市场投入了一枚重磅炸弹(包括基座模型DeepSeek V3、推理模型R1、多模态模型JanusPro)。凭借工程创新,利用多项技术优化训练、推理,降低大模型开发、部署成本,并通过开源策略降低了行业门槛,加速了技术迭代和生态建设。
如果用一句话来概括就是DeepSeek加速了AI普惠,多维度创新助力行业发展。
DeepSeek让行业与企业在结合大模型进行业务、产品创新时投入成本更低,且带来的体验更出色。从1月份开始,包括行业解决方案、终端设备、汽车以及云服务等各个领域均有多家企业宣布接入DeepSeek,还有大批用户即使受限于“服务器繁忙”也在紧跟这股热潮。可以说,DeepSeek从模型、平台、基础设施、应用及商业化落地等多个层面为AI产业带来新浪潮、新机遇。
日前,IDC公布了最新报告《IDC Market Glance: 中国生成式AI市场概览, 1Q25》,围绕模型层、平台层、基础设施层、应用层来分析DeepSeek爆火后对于大模型与生成式AI市场生态带来的潜在影响。
在模型层,DeepSeek为基础大模型开启另一开发新范式,引入多令牌预测(MTP)技术可在训练、推理过程中降低对算力的需求,提升效率;采用FP8精度进行训练,并成功构建混合专家模型,通过高效的“门控网络”实现令牌的路由,进一步削减推理成本;多头潜在注意力机制(MLA)降低KV缓存需求,减少了硬件资源消耗;DeepSeek还通过开发内部工具生成训练数据,并使用“蒸馏”技术(去噪、降维、提炼等)进一步压缩计算资源;DeepSeek在模型训练中广泛应用强化学习技术,通过试错机制和环境反馈优化模型的决策能力,特别是在推理和复杂问题解决方面。
还有一点十分关键,DeepSeek将包括代码和模型权重在内的技术开源,在降低用户体验大模型门槛的同时,也吸引了开发者,有利于技术迭代和生态局建设。
经过IDC分析师初步试验,DeepSeek R1在数学、推理、代码任务上不乏优势,但其性能并非在所有任务及指标上均领先。从短期来看,未来无论是开源还是商业的基础大模型还会进行进一步的差异化竞争,国内外大模型的生成效果差距会趋于收敛。从长期来看,NLP大模型会朝着经济高效、上下文准确、高质量、安全可靠演进,技术供应商需要在成本、不同任务与应用领域的生成质量、用户体验及安全性等多方面寻找产品差异化优势。
IDC在报告中还提到,从2024年以来,随着大模型基础能力的提升,以及应用形态的不断创新,连接大模型和应用侧的平台产品演变出现了多种形式,预计未来大模型平台会分化成底层平台以及智能体开发平台等产品。
平台层产品往往跟模型层深度绑定,使得大模型更加易用、普惠。随着大模型的日益普及,平台中多种模型选择、如何将大模型高效且可靠地部署于生产环境,已成为当前备受瞩目的核心议题。当前,全球技术供应商如英伟达、微软、英特尔、AMD、AWS以及国内技术供应商如阿里云、百度智能云、华为云、腾讯云、火山引擎、京东云、天翼云、用友、360、云轴科技等已接入了DeepSeek模型。
同时,大模型的部署过程需同时满足高并发与低延迟的严苛要求,并需全面考量数据安全、隐私保障、资源弹性扩展以及系统维护等多重因素,DeepSeek推出了多种部署模式许可也挑战了全球大模型技术提供商的主要商业化方法,目前推出的方式有云端部署、本地及内网部署、边缘部署、混合部署、容器化/微服务部署,以及联邦部署模式等。
DeepSeek一系列技术创新与开源策略对于算力影响最为直接,降低了单位算力需求,让企业及行业除“大力出奇迹(大规模投入算力资源)”路径外,还可以尝试“四两拨千斤”,配合算法、框架等软硬件协同创新,引发行业对算力的重新思考。另外,DeepSeek也会增加大模型应用与落地,驱动更多企业部署AI、将AI融入业务流程,必然会带来总体算力需求增长,而且在Scaling Law技术路线仍旧有效的情况下,“卷算力”也会给基础设施层面带来新机遇。例如埃隆·马斯克旗下人工智能公司xAI最新发布的AI大模型产品——Grok 3,在20万个GPU上进行训练,只用了214天就完成构建。根据官方公布的测试数据,Grok-3和Grok-3 mini在数学、科学、代码等领域的性能都超过或媲美Gemini、DeepSeek和ChatGPT等大模型。
DeepSeek创新带来的一系列优势将助力打造更广泛的应用场景,加速商业化落地。IDC指出,大模型的更新升级将有助于加速应用场景的创新及商业化落地,未来无论是面向个人生产效率提升的应用,还是面向企业业务与行业场景的商业化落地都将会是今年市场关注的重点。
IDC中国研究经理程荫表示,DeepSeek引领基础大模型开启另一开发新范式——以一系列降低成本与复杂性的创新优化技术、手段,降低门槛,未来差异化竞争的结果是NLP大模型的进一步更新升级,软件及硬件供应商应提供多模型选择、高效且可靠地部署方式的大模型开发平台或应用开发工具,并进行软硬件协同创新。2025年产业界也更加关注大模型和生成式AI的落地,整个生态系统应通力合作加速应用场景的创新及商业化。
最新资讯
热门视频
新品评测