虚拟主机可以干什么_校园活动策划案的范文_广东搜索引擎优化_福州短视频seo方法

Prototypical Contrastive Learning of Unsupervised Representations

http://arxiv.org/abs/2005.04966

原型对比学习PCL，一种无监督的表示学习方法，把对比学习和聚类联系起来。

图 1：原型对比学习的插图。每个实例都分配给多个具有不同粒度的原型。 PCL 学习一个嵌入空间，该空间对数据的语义结构进行编码。

先看图，尝试猜测文章的核心思想或者核心用途。蓝色圈翻译：细粒度原型（例如马和人）；绿色圈翻译：粗粒度原型（如马）；黄色箭头：实例对比学习；红色箭头：原型对比学习

绿色和蓝色圈表示外侧虚线圆的圆心，绿色大圈表示包含粗粒度原型的数据；蓝色圈内表示包含粗粒度原型和细粒度原型的数据。猜测文章就是要学习这种原型机制，使得对粗粒度数据进行一个细分。

摘要

在本文中，我们提出了原型对比学习（PCL），这是一种无监督表示学习的新框架，它将数据的语义结构隐式编码到嵌入空间中。图 1 显示了 PCL 的图示。原型被定义为“一组语义相似实例的代表性嵌入”。我们为每个实例分配了几个不同粒度的原型，并构建了一个对比损失，与其他原型相比，它强制样本的嵌入与其相应的原型更相似。在实践中，我们可以通过在 embedding 上执行聚类来找到原型。

将原型对比学习表述为期望最大化（EM）算法，其中，目标是找到最能描述数据分布的深度神经网络（DNN）的参数，通过迭代近似和最大化对数似然函数。具体说来我们将原型作为额外的潜在变量引入，并通过执行 k-means 聚类来估计它们在 E 步中的概率。在 M 步中，我们通过最小化我们提出的对比损失（即 ProtoNCE）来更新网络参数。我们表明，最小化 ProtoNCE 等效于最大化估计的对数似然，假设每个原型周围的数据分布是各向同性的 Gaussian 的。在 EM 框架下，广泛使用的实例判别任务可以解释为原型对比学习的一个特例，其中，每个实例的原型是其增强特征，并且每个原型周围的高斯分布具有相同的固定方差。本文的贡献可以总结如下：

我们提出了原型对比学习，这是一种无监督表示学习的新框架，它将对比学习和聚类联系起来。鼓励学习的表示来捕获数据集的分层语义结构。
我们给出了一个理论框架，将 PCL 表述为基于期望最大化（EM）的算法。聚类和表示学习的迭代步骤可以解释为近似和最大化对数似然函数。前面基于实例判别的方法在拟议的 EM 框架中形成了一个特例。
我们提出了 ProtoNCE，一种新的对比损失，它通过动态估计每个原型周围特征分布的集中度来改进广泛使用的 InfoNCE。ProtoNCE 还包括一个 InfoNCE 术语，其中实例嵌入可以解释为基于实例的原型。我们从信息论的角度对 PCL 进行了解释，通过证明学习的原型包含有关图像类的更多信息。
PCL 在多个基准上优于实例对比学习，在低资源迁移学习方面有实质性改进。PCL 还可以带来更好的聚类结果。

相关背景

1.实例对比学习

旨在学习一个嵌入空间，其中样本（e.g. crops）来自同一实例（e.g. 图像）被拉得更近，来自不同实例的样本被推开。为了构建对比损失，为每个样本生成正实例特征和负实例特征。不同的对比学习方法生成实例特征的策略各不相同。

内存库方法存储了上一步计算的所有样本的特征。端到端方法使用当前小批量中的所有样本生成实例特征。动量编码器方法通过动量更新的编码器对样本进行动态编码，并维护实例特征队列。

尽管性能有所提高，但基于实例对比学习的现有方法存在以下两个主要局限性，可以通过提出的 PCL 框架来解决。

实例判别的任务可以通过利用低级图像差异来解决，因此学习到的嵌入不一定能捕获高级语义。实例分类的准确性通常会迅速上升到一个高水平（在 10 个时期内达到 >90%），而进一步的训练提供的信息信号有限，这一事实证明了这一点。最近的一项研究还表明，更好的实例判别性能可能会使下游任务的性能变差
需要对足够多的负实例进行采样，这不可避免地会产生具有相似语义含义的负对，并且在嵌入空间中应该更接近。然而，他们被对比性的损失不受欢迎地分开了。此类问题在（Saunshi et al.， 2019）中被定义为类冲突，并被证明会损害表征学习。从本质上讲，实例判别学习了一个嵌入空间，该空间仅保留每个实例周围的局部平滑度，但在很大程度上忽略了数据集的全局语义结构。

实例对比学习方法局限于利用图像低级差异解决实例判别任务，忽视语义结构

实例对比学习是一种自监督学习方法，旨在通过对比不同的实例来学习数据的特征表示

基本原理

**核心思想**：基于一个假设，即相似的实例在特征空间中应该距离较近，而不相似的实例则应该距离较远。通过构建正例和负例对，并最小化正例之间的距离、最大化正例与负例之间的距离，使模型学习到能够区分不同实例的特征表示.

- **对比学习框架**：主要包括数据增强、编码器、投影网络和损失函数等组件. - **数据增强**：是对比学习的第一步，通过对原始数据应用各种变换，如裁剪、翻转、旋转、颜色变化等，生成多个不同的视图或增强实例，增加数据的多样性，让模型学习到数据的不变性特征.

- **编码器**：将增强后的实例输入到编码器网络中，编码器通常是一个深度神经网络，如卷积神经网络（CNN）或循环神经网络（RNN），它将实例映射到一个潜在的特征表示空间，提取数据的特征.

- **投影网络**：进一步将编码器输出的特征映射到一个低维的投影空间，即嵌入空间，使得相似的实例在这个空间中更加接近，不同的实例则更加远离，便于后续的对比和区分.

- **损失函数**：用于衡量模型学习到的特征表示与预期的相似性关系之间的差异，常见的损失函数有逻辑损失、N对损失、InfoNCE、三元组损失和对比损失等，通过最小化损失函数来优化模型的参数.

2.深度无监督聚类

已经提出了基于聚类的方法用于深度无监督学习。

一些研究者的工作成果共同学习图像嵌入和聚类分配，但他们尚未显示出从大规模图像中学习可转移表示的能力。DeepCluster更接近我们的工作，它执行迭代聚类和无监督表示学习，Zhan et al. 通过在线聚类进一步改进了这一点。但是，我们的方法在概念上与 DeepCluster 不同。

在 DeepCluster 中，集群分配被视为伪标签，并优化了分类目标，这导致了两个弱点：

（1）来自 ConvNet 倒数第二层的高维特征不是最适合聚类的，需要减少 PCA;

（2）额外的线性分类层经常被重新初始化，这会干扰表示学习。

在我们的方法中，表示学习通过优化原型（集群质心）上的对比损失，直接在低维嵌入空间中进行。在我们的工作的同时，SwAV 还将聚类目标与对比学习结合在一起。

深度无监督聚类方法在学习可迁移表征及处理高维特征聚类上存在不足

3.自监督前缀任务

另一类自我监督学习方法侧重于训练 DNN 以解决前缀任务，这通常涉及隐藏有关输入的某些信息并训练网络以恢复那些缺失的信息。示例包括图像修复、着色，斑块排序的预测和图像转换

与启发式pretext任务设计相比， PCL 是一个更通用的学习框架，具有更好的理论论证。

自监督 pretext 任务方法缺乏通用性与理论基础

PCL原型对比学习

INFONCE介绍：（由豆包AI生成）

在无监督师姐表示学习中，目的是吧训练集X映射到V（嵌入空间）中，用V来表述X中的每一个样本，实例对比学习通过优化对比损失函数来实现，损失函数如INFONCE

文章这里的表述就是在对每一个样本xi映射到嵌入空间中得到vi后，分子上面两个向量点乘就等效于上图中的相似度，分子中的两个v都是正嵌入

在原型对比学习中，使用原型 c而不是 v′，并将固定温度 τ 替换为每个原型的浓度估计值 φ。训练框架概述如图2所示，其中，聚类和表示学习在每个 epoch 迭代执行。

PCL作为EM算法

浓度估算

互信息分析

在这部分深入探讨 PCL 与互信息之间的紧密联系，以及这种联系如何助力更好的表征学习。之前的研究表明最小化 InfoNCE 能提升表征V和V'之间的互信息下限，而在PCL中，最小化ProtoNCE有着更强的功能，可以同时提升V和所有原型{V',C1,C2,...,CM}之间的互信息

编码器的智慧选择与共享信息捕捉

这一过程带来两大好处。首先，编码器像是一位聪明的筛选者，它学会聚焦于原型之间的共享信息，巧妙地忽略每个原型中可能存在的个体噪声干扰。这种共享信息可不是普通的信息，它蕴含着更高层级的语义知识，就像拼图中的关键碎片，能帮助模型更精准地理解和把握数据背后的深层含义，为构建高效准确的表征体系提供有力支撑。

原型与类标签的紧密关联及优势凸显

其次通过严谨的实验发现，相较于实例特征，原型与类标签之间拥有更大的互信息。我们采用特定方法对 ImageNet 训练集中所有图像的实例特征（或其分配的原型）和真实类标签之间的互信息进行精确估算，并将 PCL 的 ProtoNCE 方法与 MoCo 的 InfoNCE 进行对比。结果清晰地显示，由于聚类操作的神奇效果，原型在捕捉类标签信息方面表现更为卓越。而且随着训练逐步推进，基于 ProtoNCE 训练的原型，其与类标签的互信息持续攀升，这意味着模型能够学习到质量更高、语义内涵更丰富的表征，从而形成更具实际意义和区分度的聚类，就像把杂乱无章的知识宝库整理得井井有条，各类知识（聚类）清晰明了，取用自如。

原型作为线性分类器：PCL 的另一种有力诠释

在 PCL 里，还能从一个独特视角来理解它，就是把原型看作线性分类器，这会让我们对所学原型的本质有更深刻的洞察。

它和用交叉熵损失优化聚类分配概率p(s;x_i,θ)很相似。在该情景中，原型c就相当于线性分类器的权重

通过k-means 聚类得到的原型，其实就是每个聚类里表征的均值向量，就像一群人的平均水平代表了这个小团体的特征。这种思路在少样本学习里也有用到，像原型网络（Prototypical networks），就发现非参数的原型分类器比普通参数线性分类器效果还好。所以把原型当作线性分类器，为 PCL 的强大功能和良好表现提供了又一个坚实的理论基石，让我们能从新的维度去认识和把握 PCL 在表征学习与分类任务中的卓越能力。

实验

结论

提出了原型对比学习，这是一个通用的无监督表示学习框架，它找到网络参数以最大化观察到的数据的对数似然。将原型作为潜在变量引入，并在基于 EM 的框架中执行迭代聚类和表示学习。PCL 通过对提议的 ProtoNCE 损失进行训练来学习编码数据语义结构的嵌入空间。对多个基准的广泛实验证明了 PCL 在无监督表示学习方面的优势。