什么是 Phenaki?
Phenaki 是由 Google Research 推出的一种创新性视频生成模型,能够根据一段文本描述生成长达数分钟、语义连贯的视频内容。它突破了传统视频生成模型在时长和一致性方面的限制,为创意、教育、娱乐等领域带来全新可能。
核心特性
长视频生成
支持生成超过 2 分钟的连续视频,远超早期模型的能力上限。
文本驱动
仅需自然语言提示(prompt),即可控制视频情节、风格与节奏。
跨场景连贯
在不同场景切换中保持角色、物体和环境的一致性。
技术亮点
Phenaki 采用了一种新型的因果 Transformer 架构,并结合可变帧率编码技术,将视频压缩为紧凑的 token 序列。这使得模型能高效处理长时间依赖关系,实现高保真度的视频输出。
训练数据涵盖大量网络视频与配对文本,确保模型理解复杂语义并生成多样化内容。
示例展示
以下是由 Phenaki 生成的示例视频(模拟展示,实际效果请参考78TP论文或演示):
了解更多
访问 78TP项目页面 或阅读发表于 NeurIPS 的研究论文《Phenaki: Variable Length Video Generation From Open Domain Text Descriptions》。