人工智能咨询培训老师叶梓 转载标明出处
在生成式人工智能(Generative AI)的浪潮中,一种全新的模型——Genie,由Google DeepMind的研究团队提出。Genie是一个从无标签的互联网视频数据中以无监督方式训练出来的生成型交互环境模型。这项研究突破了传统模型对于标注数据的依赖,为创建和探索虚拟世界提供了全新的途径。
Genie模型能够在没有具体动作标签或其他特定领域要求的情况下,从视频数据中学习并生成可控的交互式虚拟环境。传统生成这样的模型需要大量的标注数据,这不仅成本高昂,而且在某些领域难以实现。Genie的出现打破了这一局限,使得从海量的互联网视频数据中学习成为可能。
Genie模型的核心能力如图1所示:将各种不同的提示转换成交互式、可玩的环境。这些环境不仅易于创建,而且用户可以轻松地进入和探索。这一过程的实现得益于一个从互联网视频完全无监督学习得到的潜在动作接口。
Genie模型能够接收多种类型的输入提示,例如文本描述、手绘草图、真实照片或合成图像,并根据这些提示生成一个虚拟世界。在图1的右侧,研究者们展示了模型根据两个潜在动作生成的几帧图像。这些图像展示了模型如何根据用户输入的潜在动作,在帧与帧之间进行连贯且有意义的转换。
图2展示了Genie模型作为生成模型的一个重要特点:它能够以多种方式被提示,生成多样化的轨迹。这些轨迹不仅展示了丰富的角色动作,而且体现了模型的交互性和生成能力。
在图2的顶部,我们可以看到模型使用一个生成的图像作为提示,而在底部,模型则使用了一个手绘草图。这两种不同的输入方式展示了Genie模型的灵活性和泛化能力,它能够接受并响应不同类型的视觉提示。
方法
在构建 Genie 模型的过程中,研究者面临的挑战是:传统的 Transformer 模型在处理视频数据时内存成本呈二次方增长,这在视频帧数可能达到 时尤为突出。为了解决这一问题,研究者采用了一种高效的空间时间 Transformer(ST-transformer)架构。如图4所示ST-transformer 由多个空间时间块组成,每个块包含交错的空间和时间注意力层,后面跟着一个前馈层(FFW)。这种设计允许模型在每个时间步内对空间注意力进行局部化处理,同时在时间维度上保持因果关系。架构中的计算复杂性主导因素(即空间注意力层)与帧数呈线性关系而非二次方,这大大提高了视频生成的效率。在每个 ST 块中仅包含一个 FFW,这样做可以优化模型其他部分的扩展,从而显著提升结果。图4中每个颜色代表单个自注意力映射,空间层关注单个时间步内的标记,而时间层则关注跨时间步的相同标记。
图3展示了模型如何接收一系列视频帧作为输入,并通过视频分词器将这些连续的图像转换为一组离散的标记,以便于模型处理。接着潜在动作模型(LAM)分析这些帧之间的转换,学习并推断出潜在的动作表示,这些动作表示是生成新视频帧的关键。
随后动力学模型利用这些潜在动作和之前的视频帧标记来预测序列中的下一帧。这个过程是迭代进行的,允许模型逐步构建起整个视频序列。模型训练的两个阶段:首先单独训练视频分词器,然后是潜在动作模型和动力学模型的共同训练。
Genie模型由三个主要部分组成,这三个组件共同构成了 Genie 模型的基础,使其能够从视频数据中学习并生成可控的交互式环境。
潜在动作模型(Latent Action Model, LAM): LAM的设计目的是在无需显式动作标签的情况下,从视频中学习动作的潜在表示。这一模型基于编码器-解码器架构,其中编码器接收视频的先前帧和下一帧作为输入,并输出连续的潜在动作。这些潜在动作随后被解码器用作条件,以预测视频的下一帧。通过这种方式,LAM能够在没有动作标注的互联网视频上进行训练,学习到控制视频生成的潜在动作空间。
视频分词器(Video Tokenizer): 视频分词器的作用是将视频帧转换为离散的标记,这一过程涉及到降维和提高视频生成质量。研究者采用了向量量化变分自编码器(VQ-VAE)技术,它能够将视频帧压缩成一组离散的表示,这些表示随后用于视频的高质量生成。与仅关注空间压缩的先前工作不同,分词器利用空间时间(spatiotemporal)Transformer架构,这不仅提高了视频生成的质量,而且由于其线性时间复杂度,还显著提高了计算效率。
动态模型(Dynamics Model): 动态模型是模型的预测组件,它接收来自视频分词器的帧标记和LAM提供的潜在动作,然后预测视频的下一帧。这一模型采用了Masked Generative Image Transformer(MaskGIT)技术,它利用空间时间Transformer架构中的因果掩码来保持时间序列的连贯性。这种设计使得模型能够基于先前的帧和动作预测未来的帧,生成连贯的视频序列。
通过精心设计的训练流程,包括视频分词器的预训练和随后的潜在动作模型与动态模型的共同训练,Genie 能够实现对视频内容的深入理解和高质量的生成。这种从视频到标记再到动作的转换不仅提高了模型的可控性,还为进一步的研究和应用打下了坚实的基础。
在推理阶段,研究者利用 Genie 模型进行动作可控的视频生成。这一过程开始于用户提供一个初始帧,这个初始帧充当模型生成视频序列的起点。随后使用视频编码器将这个初始帧转换成一系列离散的标记,这些标记构成了视频内容的压缩表示。
接下来的关键的步骤是如何通过用户输入来控制视频的生成。为此研究者允许用户指定一个离散的潜在动作,这个动作是通过选择一个整数值来定义的,它直接影响着视频序列的动态变化。这个潜在动作与之前生成的帧标记一起被送入动态模型。
动态模型是整个推理过程中的核心,它负责接收帧标记和用户指定的潜在动作,并据此预测出下一帧的标记。这个过程是迭代进行的,随着用户不断提供新的潜在动作,模型不断生成视频序列中的新帧。
这个迭代过程不仅允许重现数据集中的原始视频,还可以通过改变潜在动作来创造全新的视频轨迹。Genie 模型能够以一种高度灵活和动态的方式响应用户的输入,生成具有连贯性和多样性的视频内容。通过这种方式,Genie 模型在动作可控的视频生成方面展现出了巨大的潜力,为未来在更广泛的应用场景中的使用提供了可能。
实验
研究者们构建了一个名为“Platformers”的大规模数据集,它由来自互联网的2D平台游戏视频组成。这个数据集的创建过程包括使用关键词筛选相关的游戏视频,最终得到了55M个16秒长的视频片段,这些片段以10FPS的速度采样,具有160x90的分辨率。为了确保数据集的质量,研究者们进一步筛选出了6.8M个视频片段,这些片段总计约30,000小时,形成了一个高质量且丰富的训练资源。
在评估视频生成性能时,研究者们采用了两个关键指标:视频保真度(FVD)和可控性(ΔiPSNR)。FVD是一个视频级别的度量,用于评估生成视频的质量,而ΔiPSNR则是基于峰值信噪比(PSNR)的度量,用于衡量在不同潜在动作条件下视频生成的差异性。通过ΔiPSNR,研究者们可以评估模型在给定潜在动作时生成视频的可控性,即视频生成结果对潜在动作的敏感度。
视频分词器采用了200M参数,而潜在动作模型则有300M参数。所有模型组件都使用了16帧的序列长度,并且以10FPS进行训练。为了在大规模训练中保持稳定性,研究者们采用了bfloat16数据类型和QK归一化技术。这些技术的应用有助于提高训练过程的效率和模型的性能。
“缩放结果”中,研究者固定了视频分词器和动作模型的架构,然后训练了一系列从4000万到27亿参数的动态模型。实验结果表明,随着模型大小的增加,最终训练损失稳步下降,显示出模型性能随着参数规模的扩大而提升。此外,通过增加批量大小,例如在23亿参数模型上使用128、256和448的批量大小,同样观察到模型性能的提高。
基于这些发现,研究者们确定了最终的Genie模型,它是一个拥有10.1亿参数的动态模型,配合512的批量大小,在256个TPUv5上进行了12.5万个步骤的训练。结合分词器和动作模型,整个模型总共有10.7亿参数,训练使用了942亿个tokens。为了网站展示,他们还训练了一个更大的解码器,用于将tokens映射为360p的视频,从而增加了额外的参数。这些结果强调了模型缩放在提高性能方面的重要性,并为Genie模型的设计和训练提供了关键的见解。
定性结果中研究者们展示了一个在“Platformers”数据集上训练的、拥有110亿参数的Genie模型。这个模型能够使用来自文本到图像模型生成的图片、手绘草图和真实照片等非分布内(OOD)图像提示,生成高质量、可控的视频。如图10所示,Genie成功地将这些想象中的世界带入生活,表现出类似游戏的行为特征。另外模型还能够学习模拟可变形物体的物理属性,如图11所示,展示了模型在执行相同动作时对薯片袋等物体的变形学习。
研究者们还展示了一个在“Robotics”数据集上训练的、规模较小的模型。这个模型在测试集上达到了82.7的FVD分数,证明了其从视频数据中学习不同且一致的动作的能力。如图13所示,尽管没有使用文本或动作标签进行训练,模型仍然能够学习到具有语义意义的一致潜在动作,如向下、向上和向左。
Genie模型还表现出了对3D场景的理解能力,并能够模仿视差效果,这是平台游戏中常见的特性。如图12所示,模型能够根据潜在动作的不同,以不同的速率移动前景和背景,展示了模型对场景深度和动态交互的理解。
研究者们进一步探讨了Genie模型在训练通用智能体方面的潜力。他们指出,Genie可以作为一个基础世界模型,用于在强化学习环境中生成多样化的轨迹。研究者们展示了模型如何利用给定的起始帧,在未见过的强化学习环境中生成行为轨迹。这一能力的展示,为未来使用Genie进行智能体训练提供了有力的证明,尤其是在缺乏丰富和多样化环境数据的情况下。
最后研究者们通过一系列消融实验来评估不同设计选择对模型性能的具体影响。例如,他们对比了潜在动作模型使用原始图像输入与使用经过分词器处理的标记化图像输入的效果。结果表明,使用原始图像输入能够更好地捕捉视频动态和动作信息,从而提高模型的可控性。此外,他们还评估了不同视频分词器架构的性能,包括仅使用空间压缩的ViT、空间时间ViViT以及C-ViViT。研究发现,所提出的ST-ViViT架构在视频生成质量和可控性方面均表现最佳,同时在内存使用上也更为高效。
通过这些详细的实验和分析,研究者们不仅展示了Genie模型在视频生成和智能体训练方面的强大能力,还深入理解了模型设计中的关键因素,为进一步优化和应用提供了指导。
Genie项目的更多信息和示例可以在其官方网站上找到: Genie Project Website
论文链接:https://arxiv.org/abs/2402.15391