OpenAI谷歌鏖战正酣，AI风口为何紧抓不放？

【天极网企业频道】如今，AI赛道的火热，可以直接从致力于大模型研发的企业数量、大模型从文本生成向文生图/文生视频的进化、上游AI算力需求激增，以及英伟达与英特尔在AI芯片方面的角逐感受得到。在笔者看来，AI爆火所衍生出来的产业链，发展得如火如荼，竞争更是可以用“激战正酣”来形容。

2024年科技领域也上演了一场《热辣滚烫》，在AI领域，OpenAI与谷歌你追我赶，鏖战正酣：

北京时间2月16日凌晨2点，OpenAI正式发布其首个文本-视频生成模型Sora。该模型通过简短或详细的提示词描述，或一张静态图片，Sora就能生成类似电影的逼真场景，并且涵盖多个角色、不同类型动作和背景细节等，最高能生成1分钟左右的1080P高清视频。Sora被OpenAI认为是实现通用人工智能(AGI)的重要里程碑。

Sora生成的视频

就在Sora发布的前一天夜里，谷歌也突然升级Gemini系列模型，并发布用于早期测试的Gemini第一个版本——Gemini 1.5 Pro。该大模型采用稀疏MOE架构，配备了128000个token上下文窗口，性能和长文本都超过了GPT-4 Turbo。谷歌表示，开发者可以通过AI Studio和Vertex AI获得1.5 Pro的有限预览，其中有12.8万token上下文窗口，稍后可扩展到100万token。

　　熟悉OpenAI与谷歌的都知道，在AI领域，二者的激战已成为日常，就在Gemini 1.5 Pro发布前不久，谷歌也刚刚发布了Gemini 1.0版本。

追赶与反击，在“较劲”中发展

这一切还得从生成式AI的爆火说起。随着生成式AI的爆火，OpenAI的ChatGPT、微软的Bing Chat给予谷歌巨大的危机感，Google Bard的发布，让谷歌加入这场生成式AI的角逐。其中，ChatGPT和Bing Chat背后的模型是OpenAI的GPT模型，Google Bard是基于谷歌的LaMDA模型。这三个AI产品的问世，也拉开了“谁是最好AI模型”的争夺。

时间来到5月份的2023谷歌I/O开发者大会上，彼时，谷歌公布一系列与生成式AI相关的进展，涉及全新大模型、AI聊天机器人、搜索、办公软件、云服务、安卓系统等，并透露新一代语言模型PaLM 2擅长多语言翻译、推理、编程，部分测试表现超过GPT-4，共有4种规格，最轻量级可部署于移动设备，同时，多模态大模型Gemini正在训练中。

2023年底，就在谷歌首次透露Gemini的7个月之后，谷歌正式发布Gemini 1.0，被称为谷歌迄今为止构建的最强大、最通用、最灵活的模型，根据使用场景的不同分为Gemini Ultra、Gemini Pro、Gemini Nano等版本。然而，Gemini 1.0并没有坚持多长时间，Gemini第一个版本——Gemini 1.5 Pro正式发布。

在谷歌进行版本更新的同时，OpenAI也快马加鞭，从GPT-3.5到GPT-4，再到文生视频大模型Sora，OpenAI大模型迎来持续进化，Sora也被认为是继GPT、DALL·E之后，2024年OpenAI发布的旗下最新、最重要的AI产品系列。

更为重磅的是，谷歌发布基础世界模型——Genie(精灵)。这是一个110亿参数的基础世界模型，可以通过单张图像提示生成可玩的交互式环境，可以利用互联网视频训练的基础世界模型，从合成图像、照片甚至素描中生成无限多的可玩(可控制动作的)世界。

抢先布局，AI营造的角斗场

尤其是，整个AI市场呈现出来的是高手对决的场景，而在不断地新技术、新模型发布过程中，也正是展现技术实力的时刻，这也足以吸引大众和资本市场的目光。

在与OpenAI的竞争中，谷歌也终于发现，其在生态层面有着巨大优势，那就是在与OpenAI竞争中，战场应该扩展至手机、APP、应用平台、办公套件、云服务等多个维度。

当然除了技术强硬的OpenAI、生态较为完善的骨骼外，Meta也公布了一种视频联合嵌入预测架构技术V-JEPA，据悉，这是一种通过观看视频教会机器理解和模拟物理世界的方法，V-JEPA可以通过自己观看视频来学习，而不需要人类监督，也不需要对视频数据集进行标记，甚至根据一张静止图片来生成一个动态的视频。

不仅如此，近日，英伟达宣布成立GEAR实验室，布局多模态AI以及具身智能领域，另外Stability.ai发布了具备更强文生图能力的Stable Diffusion 3模型，并宣布文生视频应用Stable Video开放公测。随着海外厂商持续加速多模态AI领域布局，多模态AI新一轮浪潮有望加速到来。

通过整个市场来看，2024年开年，AI 大模型技术进展全面加速，视频、图像、文本生成能力比一年前大大增强。如果说，2023年还是“AI 图文生成元年”的话，今年，OpenAI将推动行业进入“AI视频生成元年”。

战场并不局限与大模型

2024年燃起来的并不单单是大模型，还有AI应用、端侧AI、智能算力......

在智能算力方面，以北美市场为例，根据TrendForce集邦咨询最新预估，以2024年全球主要云端服务业者对高端AI 服务器需求量观察，预估美系四大CSP业者包括Microsoft、Google、AWS、Meta各家占全球需求比重分别达20.2%、16.6%、16%及10.8%，合计将超过6成，居于全球领先位置。

在国内亦是如此，据艾瑞咨询发布的《2023年中国智能算力行业发展白皮书》报告显示，2023年大模型算力需求集中爆发，AI 大模型相关行业占中国智能算力总需求的58.8%，接近60%，是智能算力的最大需求方;排名第二的是算法推荐，占比14.2%。由此我们可以看出，在大模型这场战斗的背后，是其用于训练、推理的智能算力的需求。

大模型同样带火的是端侧AI，Canalys预测，AI PC的问世有望重振市场并改变用户体验，可谓是该行业的分水岭。之所以这样说是有原因的，据IDC统计，2023年第四季度，全球传统电脑出货量同比下降2.7%。IDC的初步预测显示，到2024年底，下一代AI智能手机的出货量将达到1.7亿部，占智能手机总出货量的近15%，比2023年的约5100万部有了大幅增长。

写在最后

从大模型到背后的智算支撑，再到同样火热的端侧AI，我们看到，整个市场充斥的激烈的竞争，而目前的OpenAI、谷歌、Meta、亚马逊云科技、微软，以及国内的百度、科大讯飞、昆仑万维等，他们之间的竞争也仅仅是AI时代赋予的缩影。