文生视频AI:Sora、Runway Gen-3与Kling的技术原理与创作应用
图像生成AI在2022年引发关注,视频生成AI在2024年达到质的突破。视频生成与图像生成的关键技术差异在于:视频是时间维度上连续的帧序列,相邻帧之间的一致性(物体不能凭空出现或消失、光线方向不能随机变化、人物运动需要物理合理)是图像生成不需要面对的核心挑战。
Sora:时空Transformer的视频生成
OpenAI于2024年2月发布Sora的预览,展示了生成长达60秒、具有复杂场景和一致摄影机运动的高质量视频的能力,被许多研究者视为AI能力的里程碑。
Sora的技术报告揭示了核心架构:将视频帧序列切分为”时空块”(Spacetime Patches,类似图像的Patch Embedding),通过Diffusion Transformer(DiT)在时间和空间维度上同时建模,从而保证帧间一致性。与此前的视频生成模型(通常是将图像生成模型在时间维度上延伸)相比,Sora将时间作为与空间同等级别的维度处理,这是其时间一致性显著更好的关键原因。
Sora已整合进ChatGPT Plus订阅,但目前(截至2025年)仍有分辨率、时长和内容限制,且在复杂物理交互场景(水流、固体碰撞)上仍有明显缺陷。
Runway Gen-3 Alpha与商业创作工具
Runway是目前专业视频创作者使用率最高的AI视频生成平台,Gen-3 Alpha版本在视频质量、运动平滑度和提示词响应准确性上获得行业普遍认可。Runway以创意专业人士为核心用户,提供文本生成视频(Text-to-Video)、图像生成视频(Image-to-Video)和视频风格转换功能,月订阅起价约15美元。
Runway已被用于多个商业视频制作项目,部分好莱坞制片公司开始将其整合进后期制作流程,主要用于背景生成、特效补充和原型预览(Animatic)等辅助性工作。
Kling与国产视频生成
快手旗下的Kling于2024年发布,在国内和国际社交媒体上引发广泛关注,以其对物理运动(水流、布料、人物动作)的合理模拟和较长的生成时长(可达2分钟)著称。字节跳动的MagicVideo和阿里的通义影视也在同期发布,显示了国内AI视频生成赛道的快速投入。视频生成的算力和数据需求远超图像生成,目前仍是技术研发密集型阶段,与商业大规模普及之间仍有差距。




