什么是 Phenaki?
Phenaki 是由 Google Research 团队于 2022 年推出的一种先进的 AI 视频生成模型。它能够根据一段自然语言描述(例如“一只猫在月球上弹钢琴”),自动生成一段时长可达数分钟、内容连贯且视觉逼真的视频。
与早期的视频生成模型不同,Phenaki 能够处理变长时间的输入提示,并生成比以往更长、更复杂的视频序列,为创意内容、教育、娱乐等领域带来全新可能。
核心技术亮点
变长时间建模
支持任意长度的文本描述,生成对应时长的视频。
高效压缩表示
使用 CAV(Compressed Audio-Visual)token 表示法,大幅降低计算开销。
跨场景一致性
在多镜头、多角色场景中保持时间与语义一致性。
应用示例
以下是由 Phenaki 生成的概念演示视频(模拟示意):
注:实际模型输出需参考78TP论文或 GitHub 仓库。
开源与研究
目前 Phenaki 尚未完全开源,但 Google 已发布技术论文详细阐述其架构与训练方法。社区正在积极复现相关技术,并探索轻量化版本。
开发者可关注:
• GitHub 78TP仓库(如有)
• Google AI Blog