2024年2月15日,Open AI发布了第一款文生视频模型Sora,能够生成一分钟的高保真视频,一石激起千层浪。
Open AI自称Sora是“世界模拟器”。
人们惊呼:“真实世界不再存在。”
马斯克直言:人类认赌服输。
前阿里VP贾扬清评价Sora:真的非常牛。
英伟达高级研究科学家兼人工智能代理负责人Jim Fan认为Sora代表了文本生成视频的 GPT-3 时刻。
Sora到底是什么?相比同类产品如Runway和Pika强在哪?
目前市面上文生视频模型的主流技术路线主要有两种:一种基于Transformer模型的技术路线,即从文本及图像中生成,另一种则是基于扩散模型(Diffusion model),如 Runway。
Sora牛就牛在是融合了两者的Diffusion Transformer模型,通过扩散模型(DALL-E3)和转换器架构(ChatGPT)组合,Sora不用预测序列中的下一个文本,而是预测序列中的下一个“Patch”。
事实上,Sora公布的演示视频最令人印象深刻的特点是逼真地模拟物理世界,视频效果吊打市面上同类产品如Runway和Pika。
2024年2月18日Sora的背后团队再次最新公布新的生成视频作品,这回连同一场景下的多角度机位都出现了。
AI的进化速度远超预期,毋庸置疑,AIGC极具破坏性创新的潜力,现有的产业格局如短视频、广告、游戏、影视行业等产业格局一定会被重塑,首当其冲的是谁?
360董事长周鸿祎点评道:今天Sora可能给广告业、电影预告片、短视频行业带来巨大的颠覆,但它不一定那么快击败TikTok,更可能成为TikTok的创作工具。此外,他认为,中美两国的人工智能差距在拉大。
从以上网络上摘抄的近乎狂热的介绍和描述中,我们可以冷静的总结出一个结论:Sora的强项是物理写实的模拟再现和构建写实视觉效果的能力,因为现实世界所有的表象,包括光影、物体的运动等等,都是遵循一定的物理定律的,所以可以通过代码捕捉这些规律给人工智能学习使用,因此对于写实风格的视频和图片,Sora就具备了上面所说的破坏性创新的能力,也就具备了一定替代人工的能力。
但是,这也同时暴露了Sora的短板。对于高于甚至是脱离现实物理世界规律,主观审美占主导作用的艺术创作来说,例如印象派绘画作品、抽象派艺术创作、卡通风格的影视动画和游戏作品等等,Sora就会力不从心,甚至是无能为力了。因为这些是不讲道理,只讲感觉的,正所谓只可意会不可言传。
所以,就像我之前发布的一篇《当今的CG人不要过度依赖和“迷信”人工智能!》的文章里所说的一样,人类和艺术家们,无需过度担心自己被完全取代。实际上,机器和程序的运算,永远无法取代人类大脑的艺术创作过程。所以我们只要不放弃提升自己的艺术审美能力和创造能力,我们就将永远是主导的。
大家可以把文章的网址链接分享出去,让更多的艺术家们、cg从业者能理智正确对待,不要被宣传搞的人心惶惶,担心自己将来被机器取代。