Pika爆火，AI炒作又有“新故事”？

发表于 2023-12-8 08:22:17

Pika爆火，AI炒作又有“新故事”？

最近，能够生成和编辑3D动画、动漫、卡通和电影等多种风格视频的新AI模型——Pika 1.0版本发布，热度迅速席卷全网；随后，谷歌宣布发布新一代大模型 Gemini，据说是全球范围内最先发布的多模态模型。

这让以文生视频为代表的多模态模型成为市场关注焦点，也成功引领了AI方向的新一轮炒作。

那么，文生视频应用前景如何？又该如何评估本轮AI炒作的持续性？

文生视频：难而正确的事情

文生视频是指使用生成式AI技术将文本转化为视频。这意味着，你输入一段文字，AI会根据这段文字生成一个相应的视频。

在当下的AI赛道上，AI生文、生图的技术已经比较成熟，相关的应用也层出不穷。相比之下，AI文生视频还处于发展早期。

总体来看，AI文生视频这件事，难度和价值都很大。

（1）难度大，进展缓慢

文生视频的难点主要在于技术难度、计算难度、高质量数据以及技术容融合等方面。

以技术难度为例，视频是多帧图像的组合，所以文生视频在文生图的基础上增加了时间维度，在技术上难度更大。即便是Meta和Google这样的AI巨头，在文生视频上也进展缓慢。

国内文生视频功能还停留在图片组合阶段，与早期的手绘动画类似，先绘制很多帧静止的图像，然后再把这些图像连接起来，从而实现画面的运动。但目前AI在连接这些图像的时候，过渡并不流畅，导致视频容易抖动、闪现，很难生成一个稳定的动画。

（2）击中需求痛点，应用前景较广

虽然难度很大，但AI文生视频的应用前景也非常可观，因为它能真切地解决很多行业的痛点和需求。

首先，文生视频聚焦的是视频赛道，这是当下绝大多数人的需求。统计数据显示，从2022年Q2到2023年6月，在移动互联网的所有类别的APP中，短视频的使用时长占比均高达30%以上，占比最高。而视频制作又非常耗时，AI文生视频的出现无疑可以大幅提升制作效率。

其次，相较于语言是对物理世界的抽象描述，多模态的数据（比如图像、视频、音频等）更能反映真实的物理世界，这让文生视频可以在智能驾驶、人形机器人/具身智能以及智能安防等领域广泛应用。

以智能驾驶为例，以前的自动驾驶系统就像拼图一样，由许多小模块按顺序拼接而成，比如导航、定位、感知、预测、规划、控制等。而特斯拉的FSD现在已经进化到了v12版本，它像人类大脑一样，通过神经网络处理从摄像头获取的图像和视频数据，然后直接输出车辆的控制指令，比如转弯、加速或刹车等，这一切从头到尾都是通过多模态的AI模型实现的。

不难发现，相较于AI生文、生图，AI文生视频作为多模态AI模型的重要方向，虽然发展缓慢，但潜在的应用前景非常广阔。特别是其在智能驾驶与人形机器人领域的应用，有望为产业链带来新的增量空间。

市场机会：反弹可看高一线

此前，市场担心AI已经发展到了成熟期，但始终未见到现象级的应用，进而对产业链的成长前景产生了疑虑。

而文生视频的出现有望消除以上担忧。本次Pika1.0 应用的效果超市场预期，也预示着它具备迅速实现商业化的潜力。未来，我们有望看到多模态应用在影视、广告、游戏等行业中广泛应用并产生深远影响。

可见，生成式AI在技术与应用层面均有重要突破，因此本轮AI反弹可以看高一线。其中，上游算力、中游模型以及下游应用均有机会。

算力：在视频领域，AI对算力的要求（单秒输出数据量或达到1MB，是目前最为复杂的应用场景之一），比以往的LLM更甚，或对应算力需求的高速扩张。可见，当下算力需求远未见顶。

模型：国内外巨头均重视对多模态大模型的开发应用，例如OpenAI发布图生文、语音交互等多模态功能。具备搜索、云计算能力的企业具备先发优势。

应用：看好工具型应用（比如搜索引擎、Office套件、视频会议系统等）+游戏、影视、电商等方向。