2月16日凌晨Open AI再次扔出一枚深水炸弹,发布了首个文生视频模型Sora,据介绍Sora可以直接输出长达60秒的视频并且包含高度细致的背景复杂的多角度镜头,以及富有情感的多个角色。
目前官网上已经更新了48个视频Demo在这些Demo中Sora不仅能准确呈现细节,还能理解物体在物理世界中的存在,并生成具有丰富情感的角色。
该模型还可以根据提示,静止图像甚至填补现有视频中的缺失帧来生成视频。
例如一个Prompt的描述是:在东京街头,一位时髦的女士穿梭在充满温暖霓虹灯光和动感城市标志的街道上。
在Sora生成的视频里,女士身着黑色皮衣,红色裙子,在霓虹街头行走,不仅主体连贯稳定还有多镜头,包括从大街景慢慢切入到对女士的脸部表情的特写,以及潮湿的街道地面反射霓虹灯的光影效果。
另一个Prompt则是AI想象中的龙年春节,红旗招展人山人海。有紧跟舞龙队伍抬头好奇官网的儿童,还有不少人掏出手机边跟边拍,海量人物角色各有各的行为。
行驶中的列车窗外偶遇遮挡,车内人物倒影短暂出现非常惊艳。
也可以来一段好莱坞大片质感的电影预告片:
竖屏超近景视角下,这只蜥蜴细节拉满:
至此网友直呼game over,工作要丢了,甚至有人已经开始“悼念”一整个行业。
AI理解运动中的物理世界OpenAI表示,正在教AI理解和模拟运动中的物理世界,目标是训练模型来帮助人们解决需要现实世界交互的问题根据文本提示生成视频,仅仅是整个计划其中的一步。
目前Sora已经能生成具有多个角色、包含特定运动的复杂场景,不仅能理解用户在提示中提出的要求,还了解这些物体在物理世界中的存在方式。
Sora还可以在单个视频中创建多个镜头,并依靠对语言的深入理解准确地解释提示词,保留角色和视觉风格。
对于Sora当前存在的弱点,OpenAI也不避讳,指出它可能难以准确模拟复杂场景的物理原理,并且可能无法理解因果关系。