一、引言
Phantom: Subject-Consistent Video Generation via Cross-Modal Alignment 是北京字节跳动智能创作团队提出的一种新型视频生成方法,旨在解决主体一致性视频生成的难题。该方法通过平衡文本和图像的双重模态提示,实现文本和视觉内容的深度对齐,从而生成高质量的主体一致性视频。
二、技术背景
(一)视频生成领域的挑战
视频生成相较于图像生成面临更多挑战,尤其是多帧之间的连续性和一致性。随着扩散模型的兴起,视频生成技术得到了显著发展,但仍存在一些瓶颈,如文本到视频(Text-to-Video,T2V)的随机性较大,而图像到视频(Image-to-Video,I2V)的内容丰富度受限。
(二)主体一致性视频生成的需求
主体一致性视频生成(Subject-to-Video,S2V)要求从参考图像中提取主体元素,并根据文本指令生成与主体一致的视频,这在影视制作、广告生产等领域具有广泛的应用潜力。
三、Phantom的核心贡献
Phantom 通过重新设计联合文本-图像注入模型,并利用文本-图像-视频三元组数据学习跨模态对齐,实现了高保真度的主体一致性视频生成,解决了图像内容泄露和多主体混乱等问题。其主要贡献包括:
-
概念层面 :首次明确 S2V 任务的定义,并阐明其与 T2V 和 I2V 的关系。
-
技术层面 :提出新的数据管道构建跨模态对齐的三元组数据,有效解决信息泄露和内容混淆问题;提供统一框架,生成单主体和多主体一致性的视频。
-
意义层面 :生成质量优于一些闭源商业解决方案,在影视行业或广告制作等场景具有广阔的应用前景。
四、数据管道
Phantom 构建了文本-图像-视频三元组数据结构,用于跨模态学习。其数据处理流程包括:
-
视频采样与剪切 :从 Panda70M 和内部来源采样长视频,使用 AutoShot 和 PySceneDetect 将视频剪切成单场景片段,并过滤低质量、低美学度或低运动强度的片段。
-
字幕生成与主题提取 :利用 Gemini 为过滤后的视频片段生成字幕,重点描述主体的外观、行为和场景。然后使用 LLM 分析字幕并提取主体词汇,作为 VLM 获得参考帧中的主体检测框的提示。
-
跨视频片段配对 :采用改进的 CLIP 架构中的图像嵌入器对不同视频中检测到的主体进行配对,去除分值过高或过低的配对,以避免简单地复制粘贴输入图像。
五、框架
Phantom 的架构包括未训练的输入头和训练好的 MMDiT 模块。其关键设计如下:
-
输入头 :由 3D VAE 编码器和继承自视频基础模型的 LLM 组成,分别对输入视频和文本进行编码。视觉编码器包含 VAE 和 CLIP,将图像特征与视频潜在特征以及文本特征进行组合,为模型提供低级细节信息和高级语义信息。
-
MMDiT 模块 :基于预训练的 T2V 和 I2V 模型进行改进,替换全自注意力为窗口注意力。提出动态信息注入策略,在注意力计算过程中,将一个或多个参考图像的信息动态注入,实现单主体和多主体一致性视频生成的统一架构。
六、训练和推理
(一)训练设置
采用修正流(RF)构建训练目标,调整噪声分布采样。训练分为两个阶段,第一阶段在 256p/480p 分辨率下训练 50k 次迭代,第二阶段加入混合 720p 数据,再训练 20k 次迭代以提升高分辨率生成能力。由于 VAE 的像素级重建目标可能掩盖 CLIP 特征,因此在训练中设置了较高的 VAE dropout 率以达到平衡。
(二)推理设置
Phantom 推理可接受 1 到 4 个参考图像,并通过给定的文本提示生成相应视频。在推理时需先通过 rephraser 调整文本提示,使其准确描述每个参考主体的外观和行为,避免相似主体之间的混淆。使用欧拉方法进行 50 步采样,利用分类器自由引导分离图像和文本条件。
七、实验
(一)评估材料
Phantom 从任意视频生成基础模型进行微调,重点关注主体一致性生成能力,并对人脸 ID 基于的视频生成进行独立评估。考虑到 S2V 缺乏现成基准,构建了特定测试集并定义了评估指标,包括 50 张不同场景的参考图像,涵盖人类、动物、产品等,每张图像配对 3 个不同的文本提示,共生成 450 个视频。还收集了 50 张肖像参考图像,用于独立评估 ID 一致性。
(二)定量结果
将 S2V 评估指标分为视频质量、文本-视频一致性和主体视频一致性三大类别。从结果来看,Phantom 在主体一致性(身份一致性)和提示遵循方面整体指标领先。对于多主体视频生成,由于自动化主体检测和匹配的错误率较高,进行了用户研究,结果显示 Phantom 的多主体性能与商业解决方案相当,部分指标还有优势。
(三)定性结果
通过对比几种典型情况的生成视频,发现 Vidu 和 Phantom 在主体一致性、视觉效果和文本响应方面表现相对平衡,而 Pika 在主体一致性方面表现不佳。Kling 则存在类似 I2V 方法的特征,如人物视频的第一帧几乎与输入参考图像完全匹配,导致虚拟试装场景的成功率不高。
(四)消融研究
-
视觉编码器选择 :CLIP 提取语义信息,VAE 聚焦细节信息。仅使用 CLIP 特征时,生成的面部更平滑细致,但相似度降低;仅使用 VAE 特征时,面部更清晰但可能放大不良细节。结合 VAE 和 CLIP 特征更有优势。
-
多主体混淆问题 :通过在训练时对齐文本描述与视频主体,确保每个主体都有不同的描述,在推理时使用 rephraser 调整输入文本提示,可显著提高多主体一致性生成的成功率。
八、结论
Phantom 是一种通过文本-图像-视频三元组学习实现跨模态对齐的主体一致性视频生成方法。通过重新设计联合文本-图像注入机制和动态特征融合,Phantom 在统一的单主体 / 多主体生成和人脸 ID 保持任务中表现出色,优于商业解决方案。未来的工作将致力于增强跨模态对齐、时空解耦、偏置感知训练、粒度控制和基础模型适应等方面,以进一步提升其性能和适用性。