摘要
通过大数据纳入视频图料实现与物理世界情境的影像对接,Sora获得了以影像模拟物理世界的文生视频能力,在ChatGPT的基础上推进了一大步.文生视频的时长越增加,所反映的物理规律越复杂,生成的难度越大.Sora时长达60秒的美轮美奂文生视频效果惊艳,但在形象极其逼真的同时,有违物理规律的"bug"频现.究其原因,是Sora视频生成中在提示词文本和物理世界影像反映之间语境和情境的关联断裂,因而出现规律模拟失范.Sora文生视频模拟之所以出现形象逼真而规律失范,根源在于其并不是出于对物理世界的理解,而只是大模型通用性的扩展,无关乎人工智能通用化.