同花顺大智慧通达信平台自编ACE扫单系统

Pika爆火,AI炒作又有“新故事”?

[复制链接]
发表于 2023-12-8 08:22:17 | 显示全部楼层 |阅读模式
Pika爆火,AI炒作又有“新故事”?

最近,能够生成和编辑3D动画、动漫、卡通和电影等多种风格视频的新AI模型——Pika 1.0版本发布,热度迅速席卷全网;随后,谷歌宣布发布新一代大模型 Gemini,据说是全球范围内最先发布的多模态模型。

1701940822450951.png

这让以文生视频为代表的多模态模型成为市场关注焦点,也成功引领了AI方向的新一轮炒作。

那么,文生视频应用前景如何?又该如何评估本轮AI炒作的持续性?

文生视频:难而正确的事情

文生视频是指使用生成式AI技术将文本转化为视频。这意味着,你输入一段文字,AI会根据这段文字生成一个相应的视频。

在当下的AI赛道上,AI生文、生图的技术已经比较成熟,相关的应用也层出不穷。相比之下,AI文生视频还处于发展早期。

总体来看,AI文生视频这件事,难度和价值都很大

(1)难度大,进展缓慢

文生视频的难点主要在于技术难度、计算难度、高质量数据以及技术容融合等方面

以技术难度为例,视频是多帧图像的组合,所以文生视频在文生图的基础上增加了时间维度,在技术上难度更大。即便是Meta和Google这样的AI巨头,在文生视频上也进展缓慢。

1701940842222992.png

国内文生视频功能还停留在图片组合阶段,与早期的手绘动画类似,先绘制很多帧静止的图像,然后再把这些图像连接起来,从而实现画面的运动。但目前AI在连接这些图像的时候,过渡并不流畅,导致视频容易抖动、闪现,很难生成一个稳定的动画。

(2)击中需求痛点,应用前景较广

虽然难度很大,但AI文生视频的应用前景也非常可观,因为它能真切地解决很多行业的痛点和需求

首先,文生视频聚焦的是视频赛道,这是当下绝大多数人的需求。统计数据显示,从2022年Q2到2023年6月,在移动互联网的所有类别的APP中,短视频的使用时长占比均高达30%以上,占比最高。而视频制作又非常耗时,AI文生视频的出现无疑可以大幅提升制作效率。

其次,相较于语言是对物理世界的抽象描述,多模态的数据(比如图像、视频、音频等)更能反映真实的物理世界,这让文生视频可以在智能驾驶、人形机器人/具身智能以及智能安防等领域广泛应用

以智能驾驶为例,以前的自动驾驶系统就像拼图一样,由许多小模块按顺序拼接而成,比如导航、定位、感知、预测、规划、控制等。而特斯拉的FSD现在已经进化到了v12版本,它像人类大脑一样,通过神经网络处理从摄像头获取的图像和视频数据,然后直接输出车辆的控制指令,比如转弯、加速或刹车等,这一切从头到尾都是通过多模态的AI模型实现的。

1701940854932837.png

不难发现,相较于AI生文、生图,AI文生视频作为多模态AI模型的重要方向,虽然发展缓慢,但潜在的应用前景非常广阔。特别是其在智能驾驶与人形机器人领域的应用,有望为产业链带来新的增量空间。

市场机会:反弹可看高一线

此前,市场担心AI已经发展到了成熟期,但始终未见到现象级的应用,进而对产业链的成长前景产生了疑虑。

而文生视频的出现有望消除以上担忧。本次Pika1.0 应用的效果超市场预期,也预示着它具备迅速实现商业化的潜力。未来,我们有望看到多模态应用在影视、广告、游戏等行业中广泛应用并产生深远影响。

可见,生成式AI在技术与应用层面均有重要突破,因此本轮AI反弹可以看高一线。其中,上游算力、中游模型以及下游应用均有机会。

算力:在视频领域,AI对算力的要求(单秒输出数据量或达到1MB,是目前最为复杂的应用场景之一),比以往的LLM更甚,或对应算力需求的高速扩张。可见,当下算力需求远未见顶。

模型:国内外巨头均重视对多模态大模型的开发应用,例如OpenAI发布图生文、语音交互等多模态功能。具备搜索、云计算能力的企业具备先发优势。

应用:看好工具型应用(比如搜索引擎、Office套件、视频会议系统等)+游戏、影视、电商等方向。


回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

销售微信,其他勿扰

( 公安备案号 14010802080054 工信部备案: 晋ICP备16001374号-1 )     

GMT+8, 2024-11-23 16:06 , Processed in 0.134854 second(s), 9 queries , File On.

Powered by X3.4

© 2015-2016

快速回复 返回顶部 返回列表