AI视频并非新事物，OpenAI发布的Sora为何能一骑绝尘？

【天极网企业频道】Sora的发布让OpenAI在多模态大模型领域再一次一骑绝尘。这款被OpenAI命名为Sora的文本转视频模型，可以基于描述性文字指令，生成长达60秒的视频，并能呈现用户想象中的情绪和光影。在笔者看来，也正是由于出色的视频制作能力，使得Sora瞬间“点燃”科技圈。

然而，文本转视频并非新事物，Sora为何拥有如此魔力？在Sora发布之后，笔者注意到，相关媒体将其与其他文本转视频模型进行对比测试，发现Sora在时间和视频生成质量上均碾压同行。对比结果显示，其他文本转视频大模型仅能生成3至4秒视频，而Sora生成的视频时间最多可达1分钟，且景物更加清晰稳定。

行业专家也纷纷叫好。360集团创始人、董事长周鸿祎则称，随着Sora的到来，人类离AGI真的就不远了，可能一两年很快就可以实现。英伟达人工智能研究院首席研究科学家Jim Fan直言，这是视频生成领域的GPT-3时刻。包括德邦证券、国盛证券在内的券商也给予Sora极高的评价，类似AI产业的AI生成视频的里程碑等溢美之词不绝于耳。

新事物Sora的惊艳亮相

“一位戴着尖顶帽，身披绣有白色星星的蓝色长袍的巫师正在施法，他的一只手射出闪电，另一只手中拿着一本旧书。”

Sora呈现的便是同样的场景，极具魔力的巫师正拿着书施法。我们可以看到，这段视频的时长为9秒。

“雪后的东京熙熙攘攘。镜头穿过繁忙的街道，跟随着几位享受着美丽雪景和在附近摊位购物的人们。美丽的樱花瓣伴随着雪花在风中飘舞。”

Sora根据这个提示所呈现的，便是东京在冬日里梦幻的一幕。我们可以看到，无人机的镜头跟随一对悠闲散步的情侣穿梭在街道上，左侧是车辆在河岸路上行驶的声音，右侧是顾客在一排小店之间穿梭的景象。

惟妙惟肖的视频不禁让人讶异Sora的背后逻辑，据报道，Sora实际上是一个基于数据驱动的物理引擎，能够模拟各种真实或奇幻的世界。

这款模拟器能学会复杂的渲染技术、直观的物理规律、长期的逻辑推理以及语义理解，而这一切都是通过先进的去噪技术和梯度计算实现的。

英伟达资深研究科学家兼 AI 代理主管Jim Fan发文透露，Sora可能是通过使用Unreal Engine 5生成的大量合成数据来进行训练的。

据透露，Sora是一种扩散模型，它能够通过从一开始看似静态噪声的视频出发，经过多步骤的噪声去除过程，逐渐生成视频。与GPT模型类似，Sora采用了Transformer架构，从而实现了卓越的性能扩展。

OpenAI 把视频和图像分解为较小的数据单元——patches，每个patches相当于GPT中的一个token。

此外，Sora基于DALL·E和GPT模型的研究成果，采用了DALL·E 3的重标注技术，通过为视觉训练数据生成详细描述的标题，使模型更加准确地遵循用户的文本指令生成视频。

Sora为理解和模拟现实世界的模型奠定了基础，对此OpenAI认为这是实现通用人工智能(AGI)的重要步骤。

重构视频生成领域？

随着Sora的诞生，OpenAI的收获盆满钵满。援引知情人士消息，OpenAI完成一笔交易，其投后估值目前已经达到80亿美元或更多，估值也在9个月内暴涨两倍。

资本市场更是显示出对OpenAI的偏爱，2月19日A股迎来龙年首个交易日，三大指数集体高开，上证指数涨0.72%，深证成指涨1.55%，创业板指涨1.51%，文生视频、多模态AI、AIGC等概念股涨幅居前。

相关投资人也表示，“‘Sora让AI创业者和投资人彻夜无眠’的说法，不是标题党，比如你如果是做视频生成的，Sora的出现会让你重新看待自己的方法路线，这就意味着，你之前投入的钱，还有投资人之前投的钱，都有可能浪费掉了。”

与此同时，Sora重构视频生成的说法也不绝于耳，我们知道，在文字生成视频领域，OpenAI绝非开创者，此前已有包括Runway、Pika Labs、Stability AI等在内的全球较为知名的AI视频生成初创公司。

这些同样备受关注，其中，Runway在一级市场融资金额已超过2.5亿美元;成立仅半年多的Pika，已累计融资超5500万美元;谷歌、Meta等大公司也都在进行视频生成技术的探索。据悉，Meta在2022年就发布了首款视频生成工具，名为Make-A-Video。

尽管入局较早，经过对比测试来看，Sora在时间和视频生成质量上均碾压同行，在文本生成视频领域，OpenAI既是后来者居上，又是搅局者，让已经建立的市场秩序，不得不打乱重新确立。换言之，Sora所代表的技术路线的出现，让早前入局的AI视频公司价值可能经历重构。

在国内市场，与Sora的差距相对更大，整体还处于追赶状态，短期内出现类似Sora这样的模型还比较难。文心大模型、讯飞星火之类的大模型也该加油了。

并不意味着无懈可击

就像ChatGPT没有彻底撼动文字行业一样，Sora段时间之内并不会改变视频创作行业。目前，Sora仍暴露出许多瑕疵。

相关报道显示，图灵奖得主、Meta首席AI科学家杨立昆(YannLeCun)表示，根据提示词生成的大部分逼真视频并不表明这样的AI系统理解物理世界，生成视频的过程与基于世界模型的因果预测完全不同。

另外，也有专业人士反馈，Sora视频中的画质，画面内容中的细节、光影、色彩都较精细，对导演来说，为其在拍摄前期做一个简单的镜头样板是够用的。对广告片拍摄来说，也可以用这种样板来与客户更好地进行概念上的沟通和确认。但如果涉及镜头运动角度，与更精细内容调控——如色彩、光影、道具、人物动作等，目前AI还不能达到令客户满意的程度。

OpenAI并没有否认这一认知，甚至在《作为世界模拟器的视频生成模型》技术报告中表示，Sora作为一个模拟器，目前表现出许多限制，它并没有准确地模拟许多基本互动的物理效应，比如玻璃破碎。类似于吃食物的互动不总能产生正确的物体状态的变化，还有在长时间样本中发现的不连贯性或物体的自发出现。

写在最后

Sora一经推出便受到业界的普遍关注，无论是资本市场还是业内知名人士，都对Sora充满期待，同时，OpenAI也向大家展示了多模态大模型的真正实力。

然而，Sora并不完美，相当于处在GPT 3.0阶段，其进化与发展尚需时日。然而我们也注意到，Sora及同类产品可大幅提升图像和短视频的制作效率，改变创意生产及营销工作流程，提升短视频产品生产力。将Sora作为辅助生产工具也未尝不可。