Pika爆火,AI炒作又有“新故事”? 最近,能够生成和编辑3D动画、动漫、卡通和电影等多种风格视频的新AI模型——Pika 1.0版本发布,热度迅速席卷全网;随后,谷歌宣布发布新一代大模型 Gemini,据说是全球范围内最先发布的多模态模型。
这让以文生视频为代表的多模态模型成为市场关注焦点,也成功引领了AI方向的新一轮炒作。 那么,文生视频应用前景如何?又该如何评估本轮AI炒作的持续性? 文生视频:难而正确的事情 文生视频是指使用生成式AI技术将文本转化为视频。这意味着,你输入一段文字,AI会根据这段文字生成一个相应的视频。 在当下的AI赛道上,AI生文、生图的技术已经比较成熟,相关的应用也层出不穷。相比之下,AI文生视频还处于发展早期。 总体来看,AI文生视频这件事,难度和价值都很大。 (1)难度大,进展缓慢 文生视频的难点主要在于技术难度、计算难度、高质量数据以及技术容融合等方面。 以技术难度为例,视频是多帧图像的组合,所以文生视频在文生图的基础上增加了时间维度,在技术上难度更大。即便是Meta和Google这样的AI巨头,在文生视频上也进展缓慢。
国内文生视频功能还停留在图片组合阶段,与早期的手绘动画类似,先绘制很多帧静止的图像,然后再把这些图像连接起来,从而实现画面的运动。但目前AI在连接这些图像的时候,过渡并不流畅,导致视频容易抖动、闪现,很难生成一个稳定的动画。 (2)击中需求痛点,应用前景较广 虽然难度很大,但AI文生视频的应用前景也非常可观,因为它能真切地解决很多行业的痛点和需求。 首先,文生视频聚焦的是视频赛道,这是当下绝大多数人的需求。统计数据显示,从2022年Q2到2023年6月,在移动互联网的所有类别的APP中,短视频的使用时长占比均高达30%以上,占比最高。而视频制作又非常耗时,AI文生视频的出现无疑可以大幅提升制作效率。 其次,相较于语言是对物理世界的抽象描述,多模态的数据(比如图像、视频、音频等)更能反映真实的物理世界,这让文生视频可以在智能驾驶、人形机器人/具身智能以及智能安防等领域广泛应用。 以智能驾驶为例,以前的自动驾驶系统就像拼图一样,由许多小模块按顺序拼接而成,比如导航、定位、感知、预测、规划、控制等。而特斯拉的FSD现在已经进化到了v12版本,它像人类大脑一样,通过神经网络处理从摄像头获取的图像和视频数据,然后直接输出车辆的控制指令,比如转弯、加速或刹车等,这一切从头到尾都是通过多模态的AI模型实现的。
不难发现,相较于AI生文、生图,AI文生视频作为多模态AI模型的重要方向,虽然发展缓慢,但潜在的应用前景非常广阔。特别是其在智能驾驶与人形机器人领域的应用,有望为产业链带来新的增量空间。 市场机会:反弹可看高一线 此前,市场担心AI已经发展到了成熟期,但始终未见到现象级的应用,进而对产业链的成长前景产生了疑虑。 而文生视频的出现有望消除以上担忧。本次Pika1.0 应用的效果超市场预期,也预示着它具备迅速实现商业化的潜力。未来,我们有望看到多模态应用在影视、广告、游戏等行业中广泛应用并产生深远影响。 可见,生成式AI在技术与应用层面均有重要突破,因此本轮AI反弹可以看高一线。其中,上游算力、中游模型以及下游应用均有机会。 算力:在视频领域,AI对算力的要求(单秒输出数据量或达到1MB,是目前最为复杂的应用场景之一),比以往的LLM更甚,或对应算力需求的高速扩张。可见,当下算力需求远未见顶。 模型:国内外巨头均重视对多模态大模型的开发应用,例如OpenAI发布图生文、语音交互等多模态功能。具备搜索、云计算能力的企业具备先发优势。 应用:看好工具型应用(比如搜索引擎、Office套件、视频会议系统等)+游戏、影视、电商等方向。
|