跨域小样本视觉识别的深度学习研究综述
引用:Xu H, Zhi S, Sun S, et al. Deep learning for cross-domain few-shot visual recognition: A survey[J]. arXiv preprint arXiv:2303.08557, 2023.
论文链接: https://arxiv.org/pdf/2303.08557
Abstract 摘要
深度学习在使用大量标注数据的计算机视觉中取得了巨大成功,但在标注训练数据有限的情况下表现较差。为了解决这一问题,提出了小样本学习(Few-shot learning,FSL)。然而,FSL 假设所有样本(包括源任务和目标任务的数据,目标任务是利用源任务的先验知识进行的)都来自同一领域,这在现实世界中是一个严格的假设。为了缓解这一限制,跨域小样本学习(Cross-domain Few-shot learning,CDFSL)引起了关注,因为它允许源数据和目标数据来自不同的领域和标签空间。本文首次对 CDFSL 进行了全面综述,由于其独特的设定和难点,CDFSL 受到了比 FSL 更少的关注。我们希望这篇论文能够为 CDFSL 研究者提供立场观点和教程。本综述首先介绍了 CDFSL 的定义和相关问题,接着讨论了核心的科学问题和挑战。随后,详细审查了现有文献中的 CDFSL 方法,并基于严谨的分类体系对其进行了详细描述。此外,本文还概述和讨论了 CDFSL 中一些有前景的发展方向,这些方向在问题设置、应用和理论方面值得进一步的科学研究。
1 INTRODUCTION
在过去十年里,在大规模图像数据和强大计算硬件的共同推动下,机器学习技术,特别是深度学习1,为各种计算机视觉任务带来了革命性的进展,包括图像分类2 3、分割4 5、合成6 7和目标检测8 9等基础任务。例如,在ImageNet图像分类挑战中,深度学习取得了91.10%的top-1准确率和99.02%的top-5准确率,超过了人类在该任务中的95%top-5认知能力。这些能力令人印象深刻且前所未有,尤其是考虑到自动化的固有优势,例如能够以比人类更大的规模和更高的效率处理数据。虽然看起来这个问题已经解决,但重要的是要注意,这仅仅是一个封闭数据集中的实验结果。这些巨大的成就得益于对大量数据和标注的监督深度学习的需求,但这与实际应用仍存在显著差距。首先,在许多领域,数据标注是一个昂贵且耗时的过程,包括工业检测、濒危物种识别以及水下场景分析。为了解决这个问题,研究人员探索了半监督学习算法的使用。然而,这些算法通常需要严格的假设,例如平滑性假设、聚类假设、流形假设等,并且对训练数据有较高要求,例如需要未标注数据与标注数据来自相同类别并且分布均匀。这些限制使得它们在实践中难以应用。此外,在某些领域,如医学影像、军事应用和遥感,数据隐私问题可能导致难以收集大量样本,从而导致可用样本数量有限。
基于生物学证据10,通过小样本学习(Few-shot Learning,FSL)解决具有有限监督信息的问题是可行的。人类具有仅凭少量样本就能识别新对象的优秀能力。例如,儿童仅通过几张图片就可以轻松区分“猫”和“狗”,这是一项机器尚未达到类似人类表现的能力。此外,在某些场景(例如自然场景图像)中,获取大量数据相对容易。研究人员受到了人类快速学习能力和迁移学习的启发,希望深度学习模型能够在学习大量某类数据后,仅凭少量样本就能快速学习新类别。因此,FSL的目标是利用先验知识来学习仅凭少量标注样本的新任务,因其在工业和学术中的重要应用而备受关注。自2006年引入该问题11以来,已经提出了众多研究方法12 13 14 15 16。
图 1. 小样本学习和跨域小样本学习的差异。
随着FSL的发展,有限的训练数据、领域变化和任务修改使得FSL变得更加具有挑战性,从而引入了变体,如半监督FSL17、无监督FSL18 19、零样本学习(ZSL)20、跨域FSL(CDFSL)21 22等。这些变体被视为FSL任务在样本和领域学习方面的独特情况。CDFSL旨在解决由于辅助数据(提供先验知识)与FSL任务数据之间的领域差距导致的性能下降。图1展示了FSL和CDFSL之间的区别。它在许多监督信息有限的领域中具有实际应用,例如罕见癌症检测、视频事件检测23、目标跟踪24和手势识别25。例如,在罕见癌症检测中,获取高质量的癌症标注样本通常是一个具有挑战性且昂贵的过程,并且存在与患者隐私相关的法律问题。在这种情况下,CDFSL可以利用从大量自然场景图像中获得的先验知识来检测罕见癌症。因此,CDFSL在解决实际问题方面具有重要的实际意义。然而,它结合了迁移学习和FSL的挑战,即辅助和目标数据之间的领域差距和类别转移,以及目标领域样本量的稀缺,使其成为一个更具挑战性的任务。因此,在研究人员于2019年评估了FSL方法中的跨域问题26 27之后,22首次引入了CDFSL的概念并提出了相应的解决方案。从那时起,CDFSL作为FSL的一个分支得到了广泛关注,并在顶级期刊中发表了大量相关工作。图2展示了从2020年至今CDFSL技术的发展里程碑,包括代表性CDFSL方法和相关基准。
图 2. 从 2019 年至今 CDFSL 的时间轴里程碑,包括代表性的 CDFSL 方法及相关基准。CDFSL 作为一个主题首次在 2020 年引起关注,当时两个相关的基准数据集 Meta-Dataset 28 和 BSCD-FSL 21 为 CDFSL 发布。同时,开创性的 CDFSL 工作 22 被提出。随后 29 30 紧随其后,这是 2020 年仅有的几个 CDFSL 工作。接着,31 32 33 34 35 探索了 CDFSL 的许多新设置,如跨多域小样本学习等。而 36 37 38 39 40 41 42 试图通过不同的方式来提高 CDFSL 的性能。详见第 3 节。
迄今为止,一些现有的综述已经对FSL进行了详细的总结和展望12 13 14 15 16。14将FSL分为经验学习和概念学习,讨论了如何使用来自其他领域的数据来增强小样本数据或纠正现有知识。最近,16研究了经验风险的最小化,并从经验、任务和性能的角度定义了FSL,同时将CDFSL引入为FSL的一个分支。13和12都将CDFSL作为FSL的一种变体来介绍。13讨论了FSL中的元学习、非元学习和混合元学习方法,并简要概述了CDFSL的开创性工作22,而12讨论了CDFSL中的基准和其他工作。此外,15从先验知识的角度提供了分类学,提出了FSL中的任务转移问题,并指出现有工作无法解决跨远域问题。所有上述工作都将FSL中的跨域问题视为一个潜在方向。然而,目前缺乏系统性的文献来总结和讨论CDFSL的各种相关工作。因此,在这一快速发展的时期,为了激发未来的研究并帮助新进入者更好地理解这一具有挑战性的问题,本文首次对CDFSL问题进行了全面的综述。首先,本文收集并分析了大量关于该主题的文献。参考文献索引的分析显示,在CDFSL正式提出之前,一些工作已经关注了FSL领域中的跨域问题26 27。紧接着,它作为FSL的一个分支主题引入后,CDFSL引起了重大关注并得到了广泛探索。此外,我们使用机器学习定义43 44和迁移学习理论45对CDFSL进行了定义。其次,对大量相关论文的分析表明,CDFSL的独特问题在于不可靠的两阶段经验风险最小化问题,这源于两个因素的结合:(1) 源域和目标域之间存在显著差异(无论是在任务层面还是领域本身),(2) 目标域中可用的监督信息数量有限。具体细节将在第2节中讨论。因此,所有的CDFSL工作都需要通过科学分类体系来组织,以解决其特定挑战。接下来,关于如何在CDFSL中迁移知识的问题,本文全面回顾了现有方法,并将其系统地分为四类:基于实例的、基于参数的、特征后处理和混合方法。为了便于理解CDFSL并对现有方法进行全面评估,本文还收集并介绍了相关数据集和基准,详细展示了这些数据集和基准的信息,为研究人员和从业者提供了宝贵的见解。本文随后分析并比较了不同方法的性能,全面了解了CDFSL的最新进展,如第3节和第4节所述。最后,我们从问题设置、应用和理论三个角度探讨了CDFSL的未来研究方向,这为该领域的全面理解和未来发展潜力提供了见解。
本综述的贡献可以总结如下:
- 我们分析了现有的CDFSL论文,并首次提供了一份全面的综述。我们还正式定义了CDFSL,将其与经典机器学习43 44和迁移学习理论45相联系。这有助于指导该领域未来的研究。
- 我们列出了与CDFSL相关的学习问题,并通过示例阐明了它们之间的关系和差异。这有助于在各种学习问题中定位CDFSL。我们还分析了CDFSL的独特问题和挑战,帮助探讨了CDFSL工作的科学分类体系。
- 我们进行了广泛的文献回顾,并将其组织成基于实例、基于参数、特征后处理和混合方法的统一分类体系。我们为每个分类引入了适用场景,有助于讨论其优缺点。我们还介绍了CDFSL的数据集和基准,总结了性能结果的见解,并讨论了每个类别的优缺点,以加深对CDFSL方法的理解。
- 我们针对CDFSL在问题设置、应用和理论方面的未来方向提出了建议,基于当前的不足和潜在的改进。
本综述的其余部分组织如下。第2节概述了CDFSL,包括其正式定义、相关学习问题、独特问题和挑战,以及基于实例、参数、特征和混合的现有工作分类。第3节详细介绍了针对CDFSL问题的各种方法。第4节展示了性能结果,并讨论了每个类别方法的优缺点。第5节探讨了CDFSL在问题设置、应用和理论方面的未来方向。最后,第6节对本综述进行了总结。
2 背景
在本节中,我们首先在第 2.1 节介绍与 CDFSL 相关的关键概念。然后,在第 2.2 节中,我们通过具体示例提供了对标准监督学习、FSL 和 CDFSL 问题的正式定义。为了区分 CDFSL 问题与相关问题,我们在第 2.3 节讨论了它们之间的关系和区别。在第 2.4 节中,我们讨论了使 CDFSL 变得困难的特殊问题和挑战。第 2.5 节根据现有工作如何处理这些独特问题给出了统一的分类体系。
2.1 关键概念
在给出我们对 CDFSL 的正式定义之前,我们首先定义两个基本概念“域(domain)”和“任务(task)”46 47,因为它们的具体内容在源问题和目标问题之间可能有所不同,灵感来自 Pan 和 Yang 的优秀综述 46。
定义 2.1.1. 域(Domain)
给定特征空间 X \mathcal{X} X 和边缘概率分布 P ( X ) P(\mathcal{X}) P(X),其中 X = { x 1 , x 2 , … , x n } ⊆ X \mathcal{X} = \{x_1, x_2, \ldots, x_n \} \subseteq \mathcal{X} X={x1,x2,…,xn}⊆X, n n n 为实例的数量。一个域 D = { X , P ( X ) } \mathcal{D} = \{\mathcal{X}, P(\mathcal{X})\} D={X,P(X)} 由 X \mathcal{X} X 和 P ( X ) P(\mathcal{X}) P(X) 组成。
具体而言,对于一个图像域 D \mathcal{D} D,原始图像 I I I 被映射到高维特征空间 X I \mathcal{X}_I XI。 X I \mathcal{X}_I XI 中的特征是 I I I 的高维抽象,并且相应的边缘概率分布是 P ( X I ) P(\mathcal{X}_I) P(XI)。图像域 D \mathcal{D} D 可以表示为 D = { X I , P ( X I ) } \mathcal{D} = \{\mathcal{X}_I, P(\mathcal{X}_I)\} D={XI,P(XI)}。一般来说, X I \mathcal{X}_I XI 或 P ( X I ) P(\mathcal{X}_I) P(XI) 的差异会导致不同的域 D \mathcal{D} D。
定义 2.1.2. 任务(Task)
给定域 D = { X , P ( X ) } \mathcal{D} = \{\mathcal{X}, P(\mathcal{X})\} D={X,P(X)},任务 T = { Y , P ( Y ∣ X ) } \mathcal{T} = \{\mathcal{Y}, P(\mathcal{Y}|\mathcal{X})\} T={Y,P(Y∣X)} 由标签空间 Y \mathcal{Y} Y 和条件概率分布 P ( Y ∣ X ) P(\mathcal{Y}|\mathcal{X}) P(Y∣X) 组成,其中 Y = { y 1 , y 2 , … , y m } ⊆ Y \mathcal{Y} = \{y_1, y_2, \ldots, y_m \} \subseteq \mathcal{Y} Y={y1,y2,…,ym}⊆Y, m m m 为标签数量。
具体来说,我们用 x x x 和 y y y 分别表示输入数据和监督目标。例如,对于一个分类任务 T \mathcal{T} T,所有标签 Y T = { y T 1 , y T 2 , … , y T m } ⊆ Y \mathcal{Y}_{\mathcal{T}} = \{y_{\mathcal{T}1}, y_{\mathcal{T}2}, \ldots, y_{\mathcal{T}m}\} \subseteq \mathcal{Y} YT={yT1,yT2,…,yTm}⊆Y 位于标签空间 Y \mathcal{Y} Y 中,并且 P ( Y ∣ X ) P(\mathcal{Y}|\mathcal{X}) P(Y∣X) 可以从训练数据 D = { x i , y i } \mathcal{D} = \{x_i, y_i\} D={xi,yi} 中学习得到,其中 x i ∈ X x_i \in \mathcal{X} xi∈X, y i ∈ Y y_i \in \mathcal{Y} yi∈Y。从物理角度来看, P ( Y ∣ X ) P(\mathcal{Y}|\mathcal{X}) P(Y∣X) 可以表示为用于预测 x x x 对应标签 y y y 的预测函数 f ( ⋅ ) f(\cdot) f(⋅)。
2.2 问题定义
在本小节中,我们首先定义了经典的监督学习。在深入定义 CDFSL 之前,我们将首先说明 FSL 的定义,因为我们认为 CDFSL 是 FSL 的一个子领域。
定义 2.2.1. 经典监督学习
给定一个域 D D D,考虑一个监督学习任务 T T T,一个训练集 D train D_{\text{train}} Dtrain 和一个测试集 D test D_{\text{test}} Dtest,经典监督学习的目标是在 D train D_{\text{train}} Dtrain 上学习一个预测函数 f ( ⋅ ) f(\cdot) f(⋅),使得 f ( ⋅ ) f(\cdot) f(⋅) 在 D test D_{\text{test}} Dtest 上有良好的预测效果,其中 { D train , D test } ⊆ D \{D_{\text{train}}, D_{\text{test}}\} \subseteq D {Dtrain,Dtest}⊆D。
例如,图像分类任务是使用从训练样本中学习的模型将新图像分类到给定类别中。在经典的图像分类中,训练集 D train D_{\text{train}} Dtrain 每个类别有足够的图像,例如 ImageNet 包含 1000 个类别,每个类别有超过 1000 个样本。请注意,数据集 D D D 不应与域 D D D 混淆。图 3 (a) 展示了经典监督分类问题的示例。
图3 (a) 标准分类,(b) 小样本分类,© 跨域小样本分类。不同的形状表示不同的类别。D 代表域, D s D_s Ds 和 D t D_t Dt 分别代表源域和目标域。‘?’ 表示预测测试数据。
与经典监督学习的目标相同,FSL 的目标也是从训练集 D train D_{\text{train}} Dtrain 学习一个模型来测试新样本。然而,关键区别在于 FSL 的 D train D_{\text{train}} Dtrain 仅包含非常少的监督信息,这使其成为一个非常具有挑战性的任务。由于 D train D_{\text{train}} Dtrain 中样本的稀少,许多常用的监督算法无法学习令人满意的分类模型,主要是由于过拟合问题。因此,将一些先验知识引入 FSL 任务以缓解过拟合问题是必要的和自然的。我们将获取先验知识的任务称为辅助任务 T s T_s Ts(或源任务)。通常, T s T_s Ts 和 T t T_t Tt 的类别没有交集,即 Y s ∩ Y t = ∅ Y_s \cap Y_t = \emptyset Ys∩Yt=∅,其中 Y s Y_s Ys 和 Y t Y_t Yt 分别是 T s T_s Ts 和 T t T_t Tt 的标签集。FSL 的正式定义如下给出。
定义 2.2.2. 小样本学习 (FSL)
给定一个域 D D D,一个由少量监督信息描述的任务 T t T_t Tt,其对应的数据集为 D t D_t Dt,以及一个由足够监督信息描述的辅助任务 T s T_s Ts,其对应的数据集为 D s D_s Ds,FSL 的目标是通过利用 D t D_t Dt 中的少量监督信息和 ( T s , D s ) (T_s, D_s) (Ts,Ds) 中的先验知识,为 T t T_t Tt 学习一个函数 f ( ⋅ ) f(\cdot) f(⋅),其中 { D t , D s } ⊆ D \{D_t, D_s\} \subseteq D {Dt,Ds}⊆D,且 T s ≠ T t T_s \neq T_t Ts=Tt。
具体来说,以一个小样本分类任务 T t T_t Tt 为例,我们使用相应的小样本数据对 { ( x i , y i ) } i = 1 N t \{(x_i, y_i)\}_{i=1}^{N_t} {(xi,yi)}i=1Nt 来表示输入数据和监督目标。此外, T s T_s Ts 和 { ( x i , y i ) } i = 1 N s \{(x_i, y_i)\}_{i=1}^{N_s} {(xi,yi)}i=1Ns 用来表示常规分类任务和辅助数据对,其中 N s ≫ N t N_s \gg N_t Ns≫Nt。 T t T_t Tt 遵循“C-way K-shot”训练原则( C C C 表示类别数量, K K K 表示每个类别中的样本数量)。我们从 D t D_t Dt 和 ( T s , D s ) (T_s, D_s) (Ts,Ds) 中学习函数 f ( ⋅ ) f(\cdot) f(⋅) 用于 T t T_t Tt。图 3 (b) 展示了小样本分类(FSC)问题。
作为 FSL 的一个分支,CDFSL 也使用通过 { ( x i , y i ) } i = 1 N t \{(x_i, y_i)\}_{i=1}^{N_t} {(xi,yi)}i=1Nt 和来自 { ( x i , y i ) } i = 1 N s \{(x_i, y_i)\}_{i=1}^{N_s} {(xi,yi)}i=1Ns 的先验知识训练得到的模型来预测新样本。不同之处在于,CDFSL 中的 { ( x i , y i ) } i = 1 N s \{(x_i, y_i)\}_{i=1}^{N_s} {(xi,yi)}i=1Ns 和 { ( x i , y i ) } i = 1 N t \{(x_i, y_i)\}_{i=1}^{N_t} {(xi,yi)}i=1Nt 来自两个不同的领域 D s D_s Ds 和 D t D_t Dt,即 D s ≠ D t D_s \neq D_t Ds=Dt。与 FSL 问题中的数据独立同分布(i.i.d.)不同,CDFSL 打破了这一限制。因此,CDFSL 不仅继承了 FSL 的挑战,还包含其独特的跨域挑战,使其成为一个更加具有挑战性的问题。因此,许多传统的 FSL 算法不再适用于 CDFSL,这需要开发一种可行的方法,将源域 D s D_s Ds 的先验知识转移到目标域 D t D_t Dt,而不过度拟合模型到 D s D_s Ds。
定义 2.2.3. 跨域小样本学习 (CDFSL)
考虑一个拥有充足监督信息的源域 D s D_s Ds 及其学习任务 T s T_s Ts,以及一个拥有有限监督信息的目标域 D t D_t Dt 和 FSL 任务 T t T_t Tt,CDFSL 的目标是在 D t D_t Dt 上学习一个目标预测函数 f T ( ⋅ ) f_T(\cdot) fT(⋅),并利用 ( T s , D s ) (T_s, D_s) (Ts,Ds) 中的先验知识,其中 D s ≠ D t D_s \neq D_t Ds=Dt,且 T s ≠ T t T_s \neq T_t Ts=Tt。
在跨域小样本分类(CDFSC)问题中,如图 3 © 所示,我们分别用 T s T_s Ts 和 T t T_t Tt 表示源任务和目标分类任务。它们由数据对 { ( x s i , y s i ) } i = 1 N s ⊆ D s \{(\mathbf{x}_s^i, y_s^i)\}_{i=1}^{N_s} \subseteq D_s {(xsi,ysi)}i=1Ns⊆Ds 和 { ( x t i , y t i ) } i = 1 N t ⊆ D t \{(\mathbf{x}_t^i, y_t^i)\}_{i=1}^{N_t} \subseteq D_t {(xti,yti)}i=1Nt⊆Dt 描述,其中 N s ≫ N t N_s \gg N_t Ns≫Nt, y s i ∈ Y s y_s^i \in Y_s ysi∈Ys, y t i ∈ Y t y_t^i \in Y_t yti∈Yt,且 Y t ∩ Y s = ∅ Y_t \cap Y_s = \emptyset Yt∩Ys=∅(即源域和目标域不共享标签空间)。请注意, D t D_t Dt 和 D s D_s Ds 分别从两个不同的概率分布 p p p 和 q q q 中抽样得到,且 p ≠ q p \neq q p=q。CDFSC 的目标是使用 D t D_t Dt 和 ( T s , D s ) (T_s, D_s) (Ts,Ds) 为 T t T_t Tt 学习一个分类器 f T ( ⋅ ) f_T(\cdot) fT(⋅)。它解决了目标域 D t D_t Dt 中没有足够的辅助样本为 T t T_t Tt 提供适当先验知识的问题。
此外,CDFSL 可以根据图像分布差异的原因分为三大类:基于细粒度的 CDFSL (FG)、基于艺术的 CDFSL (Art) 和基于成像方式的 CDFSL (IW)。FG-CDFSL 涉及 D s D_s Ds 和 D t D_t Dt 之间细粒度类别的差异,具体来说, D t D_t Dt 的类别是 D s D_s Ds 中某种特定种类的细粒度类。ACDFSL 涉及艺术表达的差异,例如素描、自然图像、火柴人、油画和水彩画。而在 IW-CDFSL 中, D s D_s Ds 和 D t D_t Dt 之间的成像模式不同,例如, D s D_s Ds 包含自然图像,而 D t D_t Dt 包含医学 X 射线图像。通常,IW-CDFSL 被认为是这三类中最具挑战性的类别。
2.3 密切相关的问题
在本节中,我们讨论了与 CDFSL 密切相关的问题。这些问题与 CDFSL 之间的差异和关联如图 4 所示。
图4. CDFSL 相关问题。圆圈代表目标数据,其大小表示数据量。
半监督域适应 (SemiDA)
Semi-DA 利用源域 D s D_s Ds 中的大量监督数据,以及目标域 D t D_t Dt 中的少量标记数据和大量未标记数据来提高任务 T T T 的性能。 D s D_s Ds 和 D t D_t Dt 之间的标签空间相同,样本分布不同但相关,即 D s ≠ D t D_s \neq D_t Ds=Dt。与 Semi-DA 类似,CDFSL 问题也使用源域 D s D_s Ds 中的大量监督数据和目标域 D t D_t Dt 中有限的监督数据来提高任务 T T T 的性能,且 D s ≠ D t D_s \neq D_t Ds=Dt。不同之处在于,CDFSL 不使用目标域中的大量无监督样本来辅助训练。此外,CDFSL 问题中 D s D_s Ds 和 D t D_t Dt 的标签空间不同。
无监督域适应 (UDA)
UDA 利用源域 D s D_s Ds 中的大量监督数据和目标域 D t D_t Dt 中的大量未标记数据来提高任务 T T T 的性能。 D s D_s Ds 和 D t D_t Dt 之间的分布不同但相关,即 D s ≠ D t D_s \neq D_t Ds=Dt,并且它们共享相同的学习任务。与 UDA 类似,CDFSL 也使用源域 D s D_s Ds 中的大量监督数据来提高目标域 D t D_t Dt 中任务 T T T 的性能,且 D s ≠ D t D_s \neq D_t Ds=Dt。然而,CDFSL 中的目标域 D t D_t Dt 仅有少量监督数据,且 D s D_s Ds 和 D t D_t Dt 的任务是不同的。
域泛化 (DG)
DG 使用 M M M 个源域 D s = { D s i ∣ i = 1 , … , M } D_s = \{D_s^i | i = 1, \dots, M\} Ds={Dsi∣i=1,…,M} 中的大量监督数据来提高任务 T T T 在未见过的目标域 D t D_t Dt 上的性能。 D s D_s Ds 和 D t D_t Dt 的分布不同但相关,即 D s ≠ D t D_s \neq D_t Ds=Dt,且 D s D_s Ds 和 D t D_t Dt 之间的任务相同。与 DG 类似,CDFSL 也使用源域 D s D_s Ds 中的大量监督数据来提高任务 T T T 的性能。然而,CDFSL 旨在针对特定的目标域 D t D_t Dt 执行得更好,而不是所有未见过的 D t D_t Dt,且源数据通常来自单一源域。此外, D s D_s Ds 和 D t D_t Dt 的任务是不同的,即 T s ≠ T t T_s \neq T_t Ts=Tt。
域适应小样本学习 (DAFSL)
DAFSL 利用源域 D s D_s Ds 中的大量监督数据和目标域 D t D_t Dt 中有限的标记数据来增强任务 T T T 在 D t D_t Dt 上的性能。尽管 D s D_s Ds 和 D t D_t Dt 的分布不同,即 D s ≠ D t D_s \neq D_t Ds=Dt,但学习任务保持相同。类似地,CDFSL 也使用两个域中的相同数据配置来训练任务 T T T 的函数。然而,与 DAFSL 相比,CDFSL 中 D s D_s Ds 和 D t D_t Dt 的学习任务是不同的。
多任务学习 (MTL)
MTL 利用来自 D D D 的 M M M 个任务来提高每个 T i T_i Ti (0 < i ≤ M) 的性能。所有 { T i } i = 1 M \{T_i\}_{i=1}^{M} {Ti}i=1M 是不同但相关的。与 MTL 不同的是,CDFSL 中 T s T_s Ts 和 T t T_t Tt 的数据来自不同的域 D s D_s Ds 和 D t D_t Dt,即 D s ≠ D t D_s \neq D_t Ds=Dt 且 T s ≠ T t T_s \neq T_t Ts=Tt,并且 D t D_t Dt 中的监督数据有限。
2.4 独特的问题与挑战
在机器学习中,预测误差是常见的现象,导致无法实现完美的预测,即经验风险最小化(ERM)的不可靠性问题。在本节中,我们首先解释经验风险最小化(ERM)的概念。接下来,我们深入探讨 CDFSL 的两阶段经验风险最小化(TSERM)问题。最后,我们讨论 CDFSL 所面临的独特问题与挑战。
**2.4.1 经验风险最小化 (ERM)
给定输入空间 X X X 和标签空间 Y Y Y,其中 X X X 和 Y Y Y 满足联合概率分布 P ( X , Y ) P(X, Y) P(X,Y),损失函数 l ( y ^ , y ) l(\hat{y}, y) l(y^,y),假设 h ∈ H h \in H h∈H,假设 h ( x ) h(x) h(x) 的风险(期望风险)定义为损失函数的期望值:
R ( h ) = E [ l ( h ( x ) , y ) ] = ∫ l ( h ( x ) , y ) d P ( x , y ) , R(h) = \mathbb{E}[l(h(x), y)] = \int l(h(x), y) dP(x, y), R(h)=E[l(h(x),y)]=∫l(h(x),y)dP(x,y),
学习算法的最终目标是在假设空间 H H H 中找到最小化风险 R ( h ) R(h) R(h) 的假设 h ∗ h^* h∗:
h ∗ = arg min h ∈ H R ( h ) , h^* = \arg\min_{h \in H} R(h), h∗=argh∈HminR(h),
由于 P ( x , y ) P(x, y) P(x,y) 是未知的,我们通过在训练集上对损失函数进行平均来计算一个称为经验风险的近似值:
R ^ ( h ) = 1 n ∑ i = 1 n l ( h ( x i , y i ) ) , \hat{R}(h) = \frac{1}{n} \sum_{i=1}^{n} l(h(x_i, y_i)), R^(h)=n1i=1∑nl(h(xi,yi)),
因此,期望风险通常通过经验风险最小化进行无限逼近 48 49,即选择一个假设 h ^ \hat{h} h^ 来最小化经验风险:
h ^ = arg min h ∈ H R ^ ( h ) . \hat{h} = \arg\min_{h \in H} \hat{R}(h). h^=argh∈HminR^(h).
在 FSL 中,由于监督信息有限,经验风险 R ^ ( h ) \hat{R}(h) R^(h) 可能与期望风险 h ∗ h^* h∗ 的近似相差甚远,导致经验风险最小化假设 h ^ \hat{h} h^ 过拟合。也就是说,FSL 的核心问题是由于监督数据不足引起的不可靠经验风险。在当前的 FSL 方法中,通常通过引入额外的数据集来进行迁移学习以解决过拟合问题。然而,由于源域和目标域任务的不同,FSL 面临由任务转换引发的知识迁移挑战,这在接下来的两阶段经验风险最小化问题中有所说明。
2.4.2 两阶段经验风险最小化 (TSERM)
我们假设所有任务共享一个通用的非线性特征表示。两阶段经验风险最小化(TSERM)旨在通过学习这种通用特征表示,将源任务的知识迁移到目标任务中。在第一阶段,主要关注学习通用特征表示。第二阶段则利用获得的特征表示来为目标任务构建一个最优假设。
具体来说,我们用 T s T_s Ts 和 T t T_t Tt 表示源任务和目标任务。TSERM 在假设空间 H H H 中学习两个假设 f f f 和 h 2 h_2 h2,其中 f f f 在第一阶段学习共享的特征表示, h h h 则在第二阶段利用该表示学习识别器。为方便起见,我们使用以下表示:
- ( h † , f † ) (h^\dagger, f^\dagger) (h†,f†) = arg min ( f , h ) ∈ H R ( h , f ) \arg\min_{(f,h) \in \mathcal{H}} R(h, f) argmin(f,h)∈HR(h,f) 表示最小化期望风险的函数。
- ( h ∗ , f † ) ( h^*, f^\dagger ) (h∗,f†)= arg min ( f , h ) ∈ H R ( h , f ) \arg\min_{(f, h) \in H} R(h, f) argmin(f,h)∈HR(h,f) 表示最优近似函数。
- ( h ^ , f ^ ) ( \hat{h}, \hat{f} ) (h^,f^)= arg min ( f , h ) ∈ H R ^ ( h , f ) \arg\min_{(f, h) \in H} \hat{R}(h, f) argmin(f,h)∈HR^(h,f) 表示在假设空间中最小化经验风险 H H H的函数。
由于 ( h † , f † ) (h^\dagger, f^\dagger) (h†,f†) 是未知的,因此必须通过 ( h , f ) ∈ H (h, f) \in H (h,f)∈H 来近似。 ( h ∗ , f † ) (h^*, f^\dagger) (h∗,f†) 表示在 H H H 中的最优近似,而 ( h ^ , f ^ ) ( \hat{h}, \hat{f} ) (h^,f^) 表示在 H H H 中最小化经验风险的最优假设。假设 ( h † , f † ) , ( h ∗ , f † ) , ( h ^ , f ^ ) (h^\dagger, f^\dagger), (h^*, f^\dagger), ( \hat{h}, \hat{f} ) (h†,f†),(h∗,f†),(h^,f^) 都是唯一的。
在第一阶段,源任务 T s T_s Ts 的经验风险由下式给出:
R ^ s ( h s , f ) = 1 N s ∑ i = 1 N s l ( h s ∘ f ( x s i ) , y s i ) , \hat{R}_s(h_s, f) = \frac{1}{N_s} \sum_{i=1}^{N_s} l(h_s \circ f(x_s^i), y_s^i), R^s(hs,f)=Ns1i=1∑Nsl(hs∘f(xsi),ysi),
其中 l ( ⋅ , ⋅ ) l(\cdot, \cdot) l(⋅,⋅) 是损失函数, N s N_s Ns 表示 T s T_s Ts 中的训练样本数量, x s i x_s^i xsi 和 y s i y_s^i ysi 分别表示 T s T_s Ts 中的样本和对应的标签。 h s h_s hs 是 T s T_s Ts 的假设,最优的共享特征提取函数 f ^ ( ⋅ ) \hat{f}(\cdot) f^(⋅) 表示为:
f ^ = arg min ( f , h s ) ∈ H R ^ s ( h s , f ) . \hat{f} = \arg\min_{(f, h_s) \in H} \hat{R}_s(h_s, f). f^=arg(f,hs)∈HminR^s(hs,f).
在第二阶段,目标任务 T t T_t Tt 的经验风险定义为:
R ^ t ( h t , f ) = 1 N t ∑ i = 1 N t l ( h t ∘ f ^ ( x t i ) , y t i ) , \hat{R}_t(h_t, f) = \frac{1}{N_t} \sum_{i=1}^{N_t} l(h_t \circ \hat{f}(x_t^i), y_t^i), R^t(ht,f)=Nt1i=1∑Ntl(ht∘f^(xti),yti),
与上述公式相同, h t h_t ht 是 T t T_t Tt 的假设, N t N_t Nt 表示 T t T_t Tt 的训练样本数量, x t i x_t^i xti 和 y t i y_t^i yti 分别表示 T t T_t Tt 中的样本和对应的标签。在第二阶段,我们的目标是基于第一阶段学习的共享特征表示估计出一个假设:
h ^ t = arg min ( f , h t ) ∈ H R ^ t ( h t , f ^ ) . \hat{h}_t = \arg\min_{(f, h_t) \in H} \hat{R}_t(h_t, \hat{f}). h^t=arg(f,ht)∈HminR^t(ht,f^).
我们通过 T t T_t Tt 的超额误差来衡量函数 ( h ^ t , f ^ ) (\hat{h}_t, \hat{f}) (h^t,f^),即:
E [ R excess ] = E [ R t ( h ^ t , f ^ ) − R t ( h t † , f † ) ] = E [ R t ( h t ∗ , f † ) − R t ( h t † , f † ) ] + E [ R t ( h ^ t , f ^ ) − R t ( h t ∗ , f † ) ] , \mathbb{E}[R_{\text{excess}}] = \mathbb{E}[R_t(\hat{h}_t, \hat{f}) - R_t(h^\dagger_t, f^\dagger)] = \mathbb{E}[R_t(h^*_t, f^\dagger) - R_t(h^\dagger_t, f^\dagger)] + \mathbb{E}[R_t(\hat{h}_t, \hat{f}) - R_t(h^*_t, f^\dagger)], E[Rexcess]=E[Rt(h^t,f^)−Rt(ht†,f†)]=E[Rt(ht∗,f†)−Rt(ht†,f†)]+E[Rt(h^t,f^)−Rt(ht∗,f†)],
其中, R t ( ⋅ , ⋅ ) R_t(\cdot, \cdot) Rt(⋅,⋅) 表示 T t T_t Tt 上的期望风险。 R excess R_{\text{excess}} Rexcess 表示 ( h ^ t , f ^ ) (\hat{h}_t, \hat{f}) (h^t,f^) 的期望风险与最优预测规则 ( h t † , f † ) (h^\dagger_t, f^\dagger) (ht†,f†) 之间的关系。此外,我们用 E [ R t ( h ^ t , f ^ ) − R t ( h t ∗ , f † ) ] \mathbb{E}[R_t(\hat{h}_t, \hat{f}) - R_t(h^*_t, f^\dagger)] E[Rt(h^t,f^)−Rt(ht∗,f†)] 表示估计误差,即在假设空间 H H H 中最小化经验风险 R ^ t ( h t , f ) \hat{R}_t(h_t, f) R^t(ht,f) 而不是期望风险 R t ( h t , f ) R_t(h_t, f) Rt(ht,f),如图 5 中的蓝色虚线所示。
2.4.3 独特的问题与挑战
由于假设空间 H H H 的限制,我们无法优化近似误差,即 E [ R t ( h t ∗ , f † ) − R t ( h t † , f † ) ] \mathbb{E}[R_t(h^*_t, f^\dagger) - R_t(h^\dagger_t, f^\dagger)] E[Rt(ht∗,f†)−Rt(ht†,f†)]。因此,我们的目标是优化估计误差,即 E [ R t ( h ^ t , f ^ ) − R t ( h t ∗ , f † ) ] \mathbb{E}[R_t(\hat{h}_t, \hat{f}) - R_t(h^*_t, f^\dagger)] E[Rt(h^t,f^)−Rt(ht∗,f†)]。在图 5 中,实线黑色箭头表示经验风险最小化的学习过程。实心圆表示不同的数据分布(圆的大小表示监督信息的数量,绿色和蓝色的圆分别表示源域和目标域)。目标样本所在的分布由蓝色虚线圆表示。图 5(a) 展示了一个经典的监督学习问题。在大数据集的情况下,实现 ERM 学习是相对容易的。图 5(b) 的左侧部分表示小样本学习(FSL)问题,当数据量不足时,ERM 的学习效果并不理想。现有的 FSL 策略通过不同但相关的源任务为目标任务提供了良好的初始化,如图 5(b) 右侧部分所示。
由于源域和目标域数据集之间的域差距,CDFSL 问题应运而生,如图 5© 所示。显然,CDFSL 问题涉及源域和目标域之间的域差距和任务转换,并且目标域 D t D_t Dt 中的监督信息有限。这使得 CDFSL 在继承 FSL 挑战的同时,具有其独特的挑战,即由于以下因素,TSERM(估计误差优化)不可靠:CDFSL 问题的特点是域差距和任务转换,导致源域和目标域之间的相关性有限,从而限制了它们之间的共享知识。因此,模型难以通过 D s D_s Ds 和 T s T_s Ts 来为任务 T t T_t Tt 找到最优的函数 f f f,其中 D s ≠ D t D_s \neq D_t Ds=Dt 且 T s ≠ T t T_s \neq T_t Ts=Tt。换句话说,源域和目标域之间的共享知识难以提取。
Fig. 5. 经典监督学习(vanilla supervised learning)、小样本学习(FSL)和跨域小样本学习(CDFSL)问题的比较。实心圆表示数据所在的分布(圆的大小表示数据量),虚线圆表示目标分布所属的域。
2.5 分类
根据上述独特问题与挑战,CDFSL 旨在挖掘尽可能多的共享知识,并为目标域找到最优的 f f f。基于这一考虑,并为回答“如何迁移”的问题,本文将所有 CDFSL 技术分为以下四类,如图 6 所示:
Fig. 6. 从不同角度阐述 CDFSL 方法如何找到最优特征。
- 实例引导方法. 通过引入实例的子集,模型从更多样化的样本中学习最优特征。
- 基于参数的方法. 优化模型参数,并排除假设空间 H H H 中最优函数不太可能存在的某些区域,减少 H H H 的范围。
- 特征后处理方法. 从源域中学习一个特征函数,并对其特征进行后续处理。通过后处理操作获得最接近 f † f^\dagger f† 的新特征。
- 混合方法. 结合以上三类方法的多种策略。
相应地,现有的研究可以归纳为统一的分类法。在接下来的章节中,我们将详细介绍每个类别的技术、表现、未来工作以及结论。本文的主要内容如图 7 所示。
Fig. 7. 我们综述的提纲。主要内容包括 CDFSL 的基准、挑战、相关主题、方法论及未来工作。
3 方法
CDFSL 提供了一个统一的解决方案,能够同时解决跨域和小样本学习问题。基于对独特问题和挑战的分析,我们提出了一种 CDFSL 算法的分类标准,将其分为四类:实例引导方法、基于参数的方法、特征后处理方法和混合方法。CDFSL 的概述如图 8 所示。
Fig. 8. CDFSL 方法的总体图示。首先,现有技术在源域上预训练特征提取器。其次,在目标域上使用有限的标签对特征提取器进行微调并训练一个新的识别器。我们将现有的 CDFSL 方法分为实例引导、基于参数和特征后处理三类。
3.1 实例引导方法
本节介绍了通过整合来自不同来源的额外有效实例来学习共享特征表示的方法,包括源域、目标域和其他域。这些来源提供的多样信息为寻找共享特征提供了实用指导。例如,源域中的信息通常从不同的模态和视角获取,扩展了实际信息并促进了共享特征的学习。此外,通过整合目标域的信息,模型可以更好地理解目标域,并更容易泛化到目标域。来自多个域的信息使得模型能够从多个域中学习共享表示,使得学习到的特征具有更好的泛化能力。这些方法如图 9 所示,详细内容如表 1 所示。
Fig. 9. 实例引导方法的不同类别。实例来自不同来源。 θ \theta θ 表示识别器。
表 1. 代表性的实例引导 CDFSL 方法。‘FG’ 表示基于细粒度的 CDFSL (Fine-grain CDFSL),‘Art’ 表示基于艺术的 CDFSL (Art-based CDFSL),‘IW’ 表示基于成像方式的 CDFSL (Imaging Way-based CDFSL),‘CWUT’ 表示通道均匀转换 (Channel-Wise Uniform Transformation),‘KBS’ 表示知识系统 (Knowledge-Based Systems)。
方法 | 会议 | 实例来源 | 引入的信息 | 损失函数 | FG | Art | IW |
---|---|---|---|---|---|---|---|
TriAE 29 | ACCV 2020 | 原始数据 | 标签 | L 2 L_2 L2 | ✓ | ||
NSAE 40 | ICCV 2021 | 原始数据 | 生成图像 | BSR | Log | ✓ | ✓ | |
SET-RCL 50 | ACM MM 2022 | 原始数据 | CWUT | CE | 对比学习 | Log | ✓ | ✓ | |
MDKT 51 | Neurocomputing 2021 | 原始数据 | 类别语义 | CE | ✓ | ||
CDPSN 52 | Scientific Reports 2023 | 原始数据 | 草图 | CE | ✓ | ||
ST 53 | KBS 2023 | 原始数据 | 转换 | CE | ✓ | ||
DAML 54 | ICASSP 2022 | 多个域 | 其他 3 个数据集 | CE | ✓ | ✓ | |
MCDFSL 55 | arXiv 2022 | 多个域 | 7 个辅助数据集 | BSR | 感知 | 风格 | ✓ | ✓ | |
STARTUP 35 | ICLR 2021 | 目标域 | 未标注目标数据 | CE | KL | SimCLR | ✓ | ||
DDN 32 | NIPS 2021 | 目标域 | 未标注目标数据 | CE | ✓ | ||
DSL 56 | ICLR 2022 | 目标域 | 多个目标 | RCE | 二值 KLD | ✓ | ✓ | |
UD 39 | arXiv 2021 | 目标域 | 未标注目标数据 | Log | ✓ |
3.1.1 来自原始数据的额外信息的实例
一些方法使用来自原始数据的额外信息,如语义和视觉信息,以提高 FSL 任务的性能,如图 10 所示。其中,一些工作通过重构实例提取这些额外信息,如图 10 绿色背景区域所示。例如,在 29 中,使用了一个三元自编码器(Triplet Autoencoder, TriAE)来学习共享特征表示。它整合了源实例和目标实例,并利用语义信息作为中间桥梁。在 40 中,使用自编码器对输入数据进行重构,重构的数据随后被用作额外的视觉信息,以帮助训练过程并学习共享特征表示。而 50 将多个任务/领域特定网络的知识提炼到一个网络中。通过使用小容量适配器对齐单一网络的表示与任务/领域特定网络的表示,达成了这一目标。
Fig. 10. 来自原始数据额外信息的实例。额外信息可以来自生成模型(绿色区域)或其他模态如文本(蓝色部分)。虚线表示引入额外信息的过程。
与此同时,其他工作直接将额外的信息添加到模型中,如图 10 蓝色部分所示。例如,51 提出了一个整合视觉和语义信息以识别目标类别的模型,并利用权重印刻(weight imprinting)进行未来的微调。此外,在 52 中,原始图像及其对应的素描图分别由网络的不同分支处理。在训练过程中,从原始图像中提取的特征与从素描图分支中提取的轮廓特征结合,从而提高了模型的准确性和泛化性能。此外,53 提出了一个名为自我学习(ST)的方法的任务扩展分解框架,用于跨域小样本学习(CD-FSL),通过构建面向任务的度量空间,缓解了非目标引导的问题。
3.1.2 来自多个域的实例
通过利用来自多个域的实例,模型可以学习到具有广泛泛化能力的通用共享表示。在 54 中提出的领域不可知元学习(Domain-Agnostic Meta Learning, DAML)算法使模型能够适应已见和未见域中的新类别。相反,55 将来自多个域的未标记数据引入原始源域,以传递多样的风格,使得模型更能适应各种域和风格。此外,大多数方法将多策略与多域引入策略相结合,如第 3.4 节所示。
3.1.3 来自目标域的实例
利用目标域实例的方法旨在揭示源域和目标域之间的共享信息。其中一些方法采用教师-学生网络来帮助 CDFSL 学习。例如,在 35 中(如图 11 所示),提出了一种自训练方法,利用未标记的目标数据来改进源域表示。这是首个在训练阶段引入未标记目标数据的工作。32 遵循这一设定,并通过将教师网络对弱增强的未标记目标数据的预测与学生网络对相同图像的强增强版本进行比较来强化一致性。同时,56 开发了一种自监督学习方法,充分利用未标记的目标域数据。其他工作则直接将所有标记的目标数据整合到训练过程中。例如,39 提出了一个领域切换学习(Domain-Switch Learning, DSL)框架,通过多目标域以“快速切换”方式将跨域场景嵌入训练阶段。
Fig. 11. STARTUP 35 结构。虚线表示如何使用辅助目标数据。
3.1.4 讨论与总结
实例引导策略的选择取决于数据的可用性。当源域包含语义和视觉信息等额外信息时,利用来自原始源的实例(如 3.1.1 节所述)是一种有效的方法。然而,在没有额外信息的场景中,引入来自目标域的实例(如 3.1.3 节讨论)可能是更好的选择。在目标数据稀缺或不可用的情况下,利用来自多个域的实例(如 3.1.2 节概述)也可以有所帮助。
3.2 基于参数的方法
基于参数的方法旨在通过操纵模型的参数来减少假设空间的复杂性,以发现共享特征表示。这种方法主要有三种技术,如图 12 所示:(1) 参数冻结涉及固定某些模型参数,从而简化共享特征表示的搜索,(2) 在参数选择中,从参数池中选择最合适的模型,(3) 参数重加权通过引入额外参数来约束假设空间。表 2 详细总结了属于此类别的方法。
Fig. 12. 基于参数的类别。(a), (b), 和 © 分别表示参数冻结、参数选择和参数重加权。
表 2. 参数引导的 CDFSL 方法的代表性工作。“FG” 表示基于细粒度的 CDFSL,“Art” 表示基于艺术的 CDFSL,“IW” 表示基于成像方式的 CDFSL。
方法 | 会议 | 策略 | 参数操作 | 损失函数 | FG | Art | IW |
---|---|---|---|---|---|---|---|
SB-MTL 57 | arXiv 2020 | 参数冻结 | 在内环中冻结部分层并在外环中更新整个网络 | CE | ✓ | ||
MPL 58 | TNNLS 2022 | 参数冻结 | 在内环中冻结网络并在元更新阶段更新网络 | CE | ✓ | ✓ | |
FWT 22 | ICLR 2020 | 参数冻结 | 交替更新特征转换层和主干网络中的参数 | CE | ✓ | ||
DFTL 59 | ICAICA 2021 | 参数冻结 | 按照 22 的训练设置,并在每一层使用多个 FWT 模块 | CE | ✓ | ||
FGNN 60 | KBS 2022 | 参数冻结 | 按照 22 的训练设置进行操作 | Softmax | ✓ | ✓ | |
AugSelect 61 | Big Data 2021 | 参数选择 | 从多个通过丢弃特征图获得的子网络中选择最合适的子网络 | CE | ✓ | ||
MAP 62 | arXiv 2021 | 参数选择 | 从不同的模块化适应管道中选择 | CE | ✓ | ✓ | |
ReFine 63 | CIKM 2022 | 参数重加权 | 在目标域微调前重新随机化特征提取器的顶层 | CE | ✓ | ||
VDB 64 | CVPRW 2022 | 参数重加权 | 将 “视觉域桥接” 引入 CNN 的批归一化层 | CE | ✓ | ||
AFGR 65 | NCA 2022 | 参数重加权 | 使用残差注意模块重加权主干网络 | CE | ✓ | ||
TPA 66 | CVPR 2022 | 参数重加权 | 学习特定任务的权重来调整模型参数 | CE | ✓ | ||
ATA 41 | IJCAI 2021 | 参数重加权 | 在主干网络中插入即插即用的任务增强模块 | CE | ✓ | ||
AFA 67 | ECCV 2022 | 参数重加权 | 使用对抗特征增强模块模拟分布变化 | CE | Gram-matrix | ✓ | ||
Wave-SAN 68 | arXiv 2022 | 参数重加权 | 提出 StyleAug 模块调整参数 | CE | SSL | Style | ✓ | ✓ |
3.2.1 参数冻结
参数冻结是一种通过固定一些模型参数来限制假设空间复杂性的策略。这种方法通常用于基于元学习的方法,在元训练和元测试阶段交替冻结某些参数。其中,基于得分的元迁移学习 (SB-MTL) 57 结合了迁移学习和元学习,通过使用 MAML 优化的特征编码器和基于得分的图神经网络。在训练阶段,MAML 中的一些参数被冻结。而在 58 中,在内更新阶段交替冻结和优化元编码器以学习通用特征。此外,其他工作提出了即插即用的增强模块来约束假设空间。在这些工作中,22 的核心思想是异步冻结和更新所提出的特征变换层和特征提取器,如图 12 (a) 所示。受 22 启发,许多工作对其进行了改进和增强。59 基于原始特征变换层提出了多样化的特征变换,以解决 CDFSL 问题。而 60 为度量网络的编码器和度量函数提供了两种新策略,分别是 FGNN(灵活 GNN)和一种新的分层残差块。
3.2.2 参数选择
如图 12 (b) 所示,参数选择策略旨在为目标域选择最合适的一组参数以提升性能。为了实现这一目标,研究人员提出了各种方法。例如,在 61 中,作者通过丢弃神经元或特征图来采样子网络,然后选择最合适的子网络以组成目标域学习的集成。此外,62 提出了一个动态选择机制,通过顺序应用多个最先进的适应方法,从而为下游任务配置最合适的模块。
3.2.3 参数重加权
如图 12 © 所示,参数重加权技术通过调整有限数量的参数来优化模型在目标域上的性能。各种研究探讨了这种方法,以应对小样本学习中的跨域挑战。例如,63 在适应目标数据之前重置在源域上学习到的参数。另一方面,64 通过引入“视觉域桥”的概念解决了 BatchNorm 中的内部不匹配问题。此外,65 通过在残差网络的基础上堆叠一个残差注意模块来增强特征信息。另一个研究 66 通过从头开始在一个小的支持集上训练任务特定的权重,而不是动态估计权重。最近的工作如 41 和 67 提出了对抗方法来解决小样本学习中的域差距问题,其中 41 解决了源任务分布周围的最坏情况问题,而 67 引入了一种即插即用的对抗特征增强 (AFA) 方法。最后,68 调整了一种新的样式增强(StyleAug)模块的参数,以在跨域小样本学习中实现更好的性能。
3.2.4 讨论与总结
如第 3.2.1 节讨论的,参数冻结策略通常与元学习技术结合使用。在元训练阶段,使用两个伪域,即伪已见域和伪未见域,来模拟跨域场景。然而,需要注意的是,这两个域都是从已见域中派生出来的,导致它们之间的域距离相对较小。因此,采用该策略的算法可能在解决跨域小样本学习(CDFSL)中的远域问题时效果不佳。
参数选择策略(第 3.2.2 节)旨在通过从一组选项中选择最合适的参数集来适应目标域。虽然这种方法可以有效,但它可选择的参数集范围有限,可能限制其找到目标域最优参数集的能力。此外,该策略的一些实现尝试在单一框架中结合各种技术,例如半监督学习、域适应和微调,导致方法复杂且框架臃肿。
参数重加权策略(第 3.2.3 节)通过最小的参数调整来增强模型的泛化能力。这种方法对于提高模型的性能至关重要。然而,大多数现有的重加权方法使用简单结构,这通常会导致泛化能力提升有限。因此,进一步的研究有必要探索更复杂和有效的参数重加权方法,以在 CDFSL 中取得更好的效果。
3.3 特征后处理方法
在 CDFSL 中,可迁移的特征表示通过对原始特征的后处理来实现,如图 13 所示。后处理策略包括特征选择、特征融合和特征变换。特征选择涉及从多个域中选择最适合目标域的特征。特征融合将多个特征结合起来,以生成一个泛化的特征表示。最后,特征变换使用可学习的权重调整原始特征。表 3 详细展示了相关的研究工作。
Fig. 13. 特征后处理类别。(a) 表示特征选择,其中选择最接近共享特征的信息进行知识转移。(b) 表示特征融合。将各种特征堆叠在一起以逼近共享特征。图 (b) 左侧和右侧部分显示了要融合的特征来源。© 表示特征变换,即通过转换原始特征来获得共享特征。图 © 左侧和右侧部分表示不同的转换方式。
表 3. 特征后处理 CDFSL 方法的代表性工作。“GR” 代表几何正则化。
方法 | 会议 | 策略 | 参数操作 | 损失函数 | FG | Art | IW |
---|---|---|---|---|---|---|---|
RMFS 69 | IC-NIDC 2021 | 特征选择 | 提取多域特征并从中选择 | CE | ✓ | ✓ | |
SUR 70 | ECCV 2020 | 特征选择 | 利用多域特征库自动识别最相关的表示 | CE | ✓ | ✓ | |
CHEF 71 | arXiv 2020 | 特征融合 | 通过 Hebbian 学习器在不同层次上操作的集合实现特征融合 | CE | ✓ | ||
MLP 72 | ACM MM 2021 | 特征融合 | 对中间层的特征进行加权融合,并研究残差预测任务 | CE | L2 | ✓ | ✓ | |
HVM 38 | ICLR 2022 | 特征融合 | 将中间层的特征加权并融合在一个分层原型模型中 | CE | KL | ✓ | ✓ | |
TACDFSL 73 | Symmetry 2022 | 特征变换 | 提出自适应特征分布变换 | CE | ✓ | ||
MemREIN 42 | IJCAI 2022 | 特征变换 | 探索实例归一化算法和记忆模块来变换原始特征 | CE | 对比 | ✓ | ✓ | |
RDC 74 | CVPR 2022 | 特征变换 | 通过双曲正切变换变换并重新加权原始特征 | CE | KL | ✓ | ||
StyleAdv 75 | arXiv 2023 | 特征变换 | 通过签名风格梯度引入风格变化 | CE | KL | ✓ | ||
LRP 30 | ICPR 2022 | 特征变换 | 开发一个模型不可知的解释引导训练策略 | CE | |||
BL-ES 76 | ICME 2021 | 特征变换 | 通过多个特征优化的归纳图网络 (IGN) | BCE | GR | ✓ | ✓ | |
DeepEMD-SA 77 | ISCIPT 2021 | 特征变换 | 使用注意力模块实现局部特征的交互 | CE | ✓ | ||
FUM 78 | PR 2022 | 特征变换 | 使用忘记-更新模块调节特征 | CE | ✓ | ||
ConFeSS 37 | ICLR 2022 | 特征变换 | 使用遮罩模块选择更适合目标域的特征 | CE | 发散 | ✓ | ✓ | |
TCT-GCN 79 | SSRN 2023 | 特征变换 | 结合多层特征融合和特征变换 | CE | ✓ | ||
StabPA 36 | ECCV 2022 | 特征变换 | 通过学习原型紧凑和跨域对齐表示转换特征 | Softmax | ✓ | ✓ |
3.3.1 特征选择
特征选择策略通过识别最接近目标域的特征,作为最优的共享特征表示。该方法通常与多域实例的引入相结合。该策略首先从不同的源域获取多个特征,然后选择其中一些特征以帮助目标域的适应。如图 13 (a) 所示,69 提出了一个代表性的多域特征选择(Representative Multi-Domain Feature Selection, RMFS)算法,用于优化多域特征提取和选择过程。而 70 通过训练一组特征提取器,提取多域表示,并自动选择与目标域最相关的表示。
3.3.2 特征融合(堆叠)
特征融合是一种增强模型泛化能力的方法。如图 13 (b) 所示,这种策略将来自不同来源或维度的特征结合成一个表示,以提高 FSL 在目标域上的表现。受 80 启发,许多工作认为浅层特征比深层特征更具有迁移性。因此,71 提出了 CHEF 方法,该方法将深度神经网络的不同抽象层次统一为一个表示。此外,72 结合中层特征以学习每个样本的判别信息。类似地,38 使用了一个层次化原型模型,将层次化记忆中的信息结合到最终的原型特征中。不像浅层特征的融合,在 81 中,图的表示是通过将从采样任务中获取的图增强为三个视图来实现的:一个上下文视图和两个几何视图,并使用专用编码器对每个视图进行编码。最后,这些表示通过注意力机制聚合为单个图表示。图 13 (b) 的右侧部分展示了来自不同网络层的特征融合,而左侧部分展示了一组不同网络的特征堆叠。
3.3.3 特征变换
特征变换策略通过重新加权特征以提高性能,如图 13 © 所示。一些方法通过变换和加权获得权重,例如图 13 © 的右侧部分,而其他方法使用可学习模块获得权重,例如图 13 © 的左侧部分。对于前一类方法,在 73 中,提出了用于解决 CDFSL 的 WDMDS(Wasserstein 距离用于衡量域偏移)和 MMDMDS(最大均值差异用于衡量域偏移)。42 引入了 MemREIN 框架,该框架考虑了记忆、恢复和实例归一化,例如探索了一个实例归一化算法来缓解特征不相似性问题。而 74 通过构建非线性子空间并使用双曲正切变换,最小化任务无关特征,同时保留更多可转移的判别信息。此外,75 提出了一个新的模型无关的元样式对抗训练方法(StyleAdv)以及一种新的样式对抗攻击方法,用于 CDFSL。
此外,还有一些方法使用可学习模块来确定特征权重。例如,30 计算中间特征的解释得分并相应地重新加权。76 通过训练双层任务策略(BL-ES)来获得权重以对特征进行加权。77 使用基于局部描述符的模型 DeepEMD 上的注意力模块,以使局部特征之间能够进行交互。此外,78 通过使用遗忘-更新模块(FUM)提取关系嵌入来重新加权特征。最近,37 采用了遮罩模块来重新加权特征,选择更适合目标域的特征。79 提出了任务上下文转换器和图卷积网络(TCT-GCN)方法。最后,一些方法通过结合域适应和小样本学习方法解决 CDFSL 问题。例如,36 提出了 stabPA 方法,以学习紧凑的、跨域对齐的表示。
3.3.4 讨论与总结
特征选择策略在存在多域或辅助视图数据时可以帮助选择最适合目标域的特征,如第 3.3.1 节所讨论的。然而,当没有多个域可用时,来自单一源域的特征可能具有有限的多样性,这意味着从同一源域中选择不同的特征可能不会显著提高 FSL 在目标域上的性能。
特征融合策略(如第 3.3.2 节所述)旨在从多个来源获取特征,或是来自单一网络的不同层,或是来自多个网络。然而,在前者的情况下,同一数据集和网络中的特征之间的相似性可能需要有效的融合方法,而在后者的情况下,使用多个网络可能会增加训练成本,因为需要同时进行训练。
特征变换(如第 3.3.3 节所介绍)是一种常见的方法,尤其是在没有额外的网络和多域数据时。它通过简单的变换和加权或通过可学习模块为特征分配新参数来重新加权特征。然而,这种策略只能对最终层输出的特征进行有限的共享信息探索。
3.4 混合方法
混合方法在 CDFSL 中结合了上述策略,相关技术列在表 4 中。实例引导和基于参数的策略组合在 CDFSL 中十分普遍。例如,34 提出了一个参数高效的多模式调制器。首先,该调制器旨在在单一网络中维护多个调制参数(每个域一个),从而实现单网络的多域表示。其次,它将调制参数分为域特定和域协作两组,分别探索域内信息和域间关联。此外,82 探索了一种新颖的目标引导动态混合(TGDM)框架,以生成中间域图像来帮助目标域上的 FSL 任务学习。此外,83 通过利用多个域来学习元学习者,并在参数空间中将元学习者结合起来,作为目标域中使用的网络的初始化参数。此外,研究人员还探索了 CDFSL 中特征后处理和基于参数策略的结合。84 进行了基于风格迁移的任务增强,结合了来自不同任务和风格的特征融合任务以及特征调制模块(FM)。在 85 中,提出了一个特征提取器堆叠(FES)来结合多个骨干网络的信息。
表4. 混合型CDFSL代表方法。‘FCS’表示’计算机科学前沿’。
方法 | 会议 | 实例指导 | 特征后处理 | 参数基础 | 损失函数 | FG | Art | IW |
---|---|---|---|---|---|---|---|---|
CosML 83 | arXiv 2020 | 多领域 | 特征融合 | 参数重加权 | CE | ✓ | ||
URL 33 | ICCV 2021 | 多领域 | 特征融合 | 参数重加权 | CE & CKA & KL | ✓ | ✓ | ✓ |
Meta-FDMixup 31 | ACM MM 2021 | 标签目标 | 特征变换 | 参数重加权 | CE & KL | ✓ | ✓ | |
Tri-M 34 | ICCV 2021 | 多领域 | 特征融合 | 参数重加权 | CE | ✓ | ✓ | |
ME-D2N 86 | ACM MM 2022 | 标签目标 | 特征变换 | 参数重加权 | CE & KL | ✓ | ✓ | |
TL-SS 87 | AAAI 2022 | 原始数据 | 特征融合 | 参数重加权 | CE & Metric | ✓ | ✓ | ✓ |
TGDM 82 | ACM MM 2022 | 标签目标 | 特征融合 | 参数重加权 | CE | ✓ | ||
TAML 84 | arXiv 2023 | 多领域 | 特征融合 | 参数重加权 | CE | ✓ | ||
TKD-Net 88 | FCS 2023 | 多领域 | 特征融合 | 参数重加权 | CE & KL & L2 | ✓ | ✓ |
3.4.1 通过损失函数的混合
一些工作不仅结合了上述策略,还结合了不同的损失函数,如对比损失、度量损失等。31 倡导利用少量标记的目标数据来引导模型学习,并通过交叉熵(CE)损失和 KL 损失进行优化。技术上,提出了一种新颖的元 FDMixup 网络,使用解耦模块和域分类器提取域无关和域特定特征。86 也采用了这个设置(引入少量标记的目标域数据),并提出了一个多专家域分解网络(ME-D2N)来解决 CDFSL。其损失函数包括交叉熵和 KL 损失。89 提出了一种基于风格感知的情景训练和鲁棒对比学习(SET-RCL),使得学习到的模型可以更好地适应具有域特定风格的测试任务。而 TL-SS 策略 87 增强了任务的多视图,并提出了一个高阶关联编码器(HAE),以生成适当的参数,并使编码器能够灵活适应任何未见的任务。该工作中的损失函数包括交叉熵和度量损失。此外,33 通过蒸馏多个单独训练网络的知识,学习了一组深度通用表示,这些网络使用了多个域,并在适配器和集中核对齐的帮助下对齐它们的特征。它通过 CKA、交叉熵和 KL 损失进行优化。88 提出了团队知识蒸馏网络(TKD-Net),并探索了一种策略,以帮助多个教师的协作。
3.4.2 讨论与总结
如第 3.4 节所讨论的,CDFSL 中多种策略的结合可以带来性能的提升。例如,实例引导策略通常很容易被整合到各种方法中,因此经常与其他方法结合。然而,结合策略也存在挑战。特征后处理和基于参数的策略结合可能是不可预测的,并且可能导致负迁移,使其成为不太常探索的选项。为了实现最佳效果,避免负迁移并仔细考虑混合方法中策略的组合是至关重要的。
4 性能
本节全面概述了跨域小样本学习(CDFSL)领域中模型的评估过程。为了评估这些模型的有效性,我们需要考察用于评估的合适数据集和基准,这分别在第 4.1 节和第 4.2 节中讨论。在第 4.3 节中,我们深入分析和比较了 CDFSL 领域中各种方法类别的性能。本节对模型进行了关键评估,突出显示了不同方法应对 CDFSL 难题的优点和缺点。
4.1 数据集
CDFSL 模型的评估得益于带注释的数据集的可用性。各种算法和架构的比较通过使用这些数据集得到了公平的评估。数据集在复杂度、规模、注释数量以及迁移难度方面的不断增长代表了一个持续的挑战,推动了创新和更优技术的发展。表 5 列出了 CDFSL 问题中最广泛使用的数据集,以下章节对每个数据集进行了深入描述:
miniImageNet 90: miniImageNet 数据集由 ImageNet 数据集中选取的 60000 张图像组成,共包含 100 个类别。每个类别有 600 张图像,每张图像的尺寸为 84 × 84。
tieredImageNet 91: tieredImageNet 数据集选自 ImageNet 数据集,包含 34 个类别,每个类别包含 10-30 个子类别(类)。该数据集中共有 608 个类和 779165 张图像。每个类包含多个不同数量的样本。
Plantae 92: Plantae 数据集是 iNat2017 数据集的一部分。该数据集包含 2101 个类别和 196613 张图像。
Places 93: Places 数据集包含超过 1000 万张 400 多种独特场景类别的图像。该数据集中的每个类包含 5000 到 30000 张训练图像,符合现实世界中出现的频率。数据集中图像的尺寸为 200 × 200。
Stanford Cars 94: Cars 数据集是一个关于汽车的细粒度分类数据集,包含 196 个类别的 16185 张图像。数据分为 8144 张训练图像和 8041 张测试图像。
CUB 95: CUB 数据集中的图像与 ImageNet 数据集有重叠。它是一个关于鸟类的细粒度分类数据集,包含 200 个类别的 11788 张图像。数据集中图像的尺寸为 84 × 84。
CropDiseases 96: CropDiseases 数据集由大约 87000 张健康和患病作物叶片的 RGB 图像组成,分为 38 个不同的类。整个数据集以 80/20 的比例分为训练集和验证集。数据集中图像的尺寸为 256 × 256。
EuroSAT 97: EuroSAT 是一个用于土地利用和土地覆盖分类的数据集。该数据集基于 Sentinel-2 卫星图像,包含 10 个类别,共 27000 张带有标签和地理参考的图像。每个类包含 2000-3000 张图像,图像尺寸为 64 × 64。
ISIC 2018 98 99: ISIC 2018 数据集包含 10015 张来自 7 个类别的皮肤病变图像用于训练,193 张图像用于评估,1512 张图像用于测试。每张图像的尺寸为 600 × 450。
ChestX 100: ChestX-ray14 是目前 NIH 研究所提供的最大肺部 X 射线数据库,包含 14 种肺部疾病,以及一个无疾病的类别。数据集中图像的尺寸为 1024 × 1024。
Omniglot 101: Omniglot 数据集由 50 种语言的 1623 个手写字符组成,每个字符有 20 种不同的手写形式。数据集中每张图像的尺寸为 28 × 28。
FGVC-Aircraft 102: FGVC-Aircraft 数据集包含 10200 张飞机图像(102 种飞机型号,每种型号 100 张图像)。图像分辨率约为 1-2 兆像素。
Describable Textures (DTD) 103: DTD 是一个纹理数据库,包含 5640 张图像,根据 47 个基于人类感知的术语(类别)组织。每个类别有 120 张图像。图像尺寸在 300 × 300 到 640 × 640 之间。
Quick Draw 104: Quick Draw 数据集是 345 个类别下的 5000 万幅绘画的集合,由 Quick, Draw! 游戏的玩家贡献。
Fungi 105: 该数据集包含 1394 个不同类别的 100000 张真菌图像,涵盖了在丹麦被公众发现的所有真菌类。
VGG Flower 106: VGG Flower 数据集包含 8189 张属于 102 个类别的花卉图像。所选花卉为英国常见花卉。每个类别包含 40 到 258 张图像。
Traffic Signs 107: Traffic Signs 数据集包含 43 个类别的德国交通标志图像,共 50000 张。
MSCOCO 108: MSCOCO 数据集中的图像来自 Flickr,包含 150 万个物体实例,属于 80 个类别,并通过边界框进行了标注和定位。
表5. CDFSL中的数据集详细信息。
数据集 | 来源 | 图像数量 | 图像大小 | 类别数量 | 内容 | 领域 | 参考文献 |
---|---|---|---|---|---|---|---|
miniImageNet | ImageNet | 60000 | 84 x 84 | 100 | 物体分类 | 自然场景 | 90 |
tieredImageNet | ImageNet | 779165 | 84 x 84 | 608 | 物体分类 | 自然场景 | 91 |
Plantae | iNat2017 | 196613 | 可变 | 2101 | 植物和动物分类 | 自然场景 | 92 |
Places | N/A | 1000万 | 200 x 200 | 400+ | 场景分类 | 自然场景 | 93 |
Stanford Cars | N/A | 16185 | 可变 | 196 | 汽车精细分类 | 自然场景 | 94 |
CUB | ImageNet | 11788 | 84 x 84 | 200 | 鸟类精细分类 | 自然场景 | 95 |
CropDiseases | N/A | 87000 | 256 x 256 | 38 | 作物叶子分类 | 自然场景 | 96 |
EuroSAT | Sentinel-2 satellite | 27000 | 64 x 64 | 10 | 土地分类 | 遥感 | 97 |
ISIC 2018 | N/A | 11720 | 600 x 450 | 7 | 皮肤镜下病变分类 | 医疗 | 99 |
ChestX | N/A | 100K | 1024 x 1024 | 15 | 肺部疾病分类 | 医疗 | 100 |
Omniglot | N/A | 25260 | 28 x 28 | 1623 | 字符分类 | 字符 | 101 |
FGVC-Aircraft | N/A | 10200 | 可变 | 100 | 飞机精细分类 | 自然场景 | 102 |
DTD | N/A | 5640 | 可变 | 47 | 纹理分类 | 自然场景 | 103 |
Quick Draw | Quick draw! | 5000万 | 128 x 128 | 345 | 绘画图像分类 | 艺术 | 104 |
Fungi | N/A | 100000 | 可变 | 1394 | 真菌精细分类 | 自然场景 | 105 |
VGG Flower | N/A | 8189 | 可变 | 102 | 花卉精细分类 | 自然场景 | 106 |
Traffic Signs | N/A | 50000 | 可变 | 43 | 交通标志分类 | 自然场景 | 107 |
MSCOCO | N/A | 150万 | 可变 | 80 | 物体分类 | 自然场景 | 108 |
4.2 基准
本节主要介绍 CDFSL 问题的基准,包括 miniImageNet & CUB (mini-CUB)、标准细粒度分类基准 (FGCB) 和 BSCD-FSL 21。此外,Meta-Dataset 28 也被提出用于评估 FSL 中的跨域问题。由于 mini-CUB 已包含在 FGCB 中,因此我们主要介绍后三个基准。
FGCB 在 CDFSL 发展的早期阶段,为基于细粒度的 CDFSL(FG-CDFSL)提出了一个传统基准。它包含五个数据集:miniImageNet、Plantae 92、Places 93、Cars 94 和 CUB 95,其中通常将 miniImageNet 视为源域,将其他数据集视为目标域。此基准中的所有图像都是自然图像。该基准中的跨域主要挑战在于将类别信息从粗粒度转移到细粒度。
BSCD-FSL 21 BSCD-FSL 是一个更具挑战性的基准,用于解决 CDFSL 中基于成像方式的跨域问题(IWCDFSL)。它包含五个数据集:miniImageNet、CropDisease 96、EuroSAT 97、ISIC 98 99 和 ChestX 100。其中,CropDisease 是一个包含农作物叶片的细粒度数据集,且所有图像都是自然工业图像。EuroSAT、ISIC 和 ChestX 则使用了与自然图像不同的成像方式,分别是卫星图像、皮肤病图像和放射影像图像。
Meta-Dataset 28 Meta-Dataset 是一个大规模、多样化的基准,用于在现实且具有挑战性的少样本情境中测量各种图像分类模型的性能,包括 CDFSL。该数据集由 10 个公开可用的自然图像数据集、手写字符和涂鸦数据集组成。这些数据集的选择标准是免费且易于获取,涵盖了各种视觉概念(自然和人造),并且类定义的粒度不同。因此,该基准可以用于解决基于细粒度 (FG) 和基于艺术 (Art) 的 CDFSL 问题。该基准打破了 FSL 中源数据和目标数据来自同一领域的限制以及 N-way K-shot 任务形式的限制。此外,它引入了现实世界中的类别不平衡,这意味着它改变了每个任务中的类别数量和训练集的规模。
除了上述常用的基准外,一些方法采用了最初为领域自适应(DA)问题设计的基准。DomainNet 109(旨在解决基于艺术的跨域问题)在 DA 中被广泛使用,包括 6 个领域,每个领域包含 345 个常见物体的类别。此外,一些研究还使用了基准 Office-Home 110 进行 CDFSL,该基准包含 4 个领域(艺术、剪贴画、产品和现实世界),每个领域有 65 个类别。该基准由 15500 张图像组成,每个类别平均有 70 张图像,最大类别包含 99 张图像。
4.3 性能比较与分析
本节旨在比较来自不同分类的 CDFSL 方法的性能。CDFSL 中使用的标准评估指标是预测准确率,评估通常在多种设置下进行,包括 5-way 1-shot、5-way 5-shot、5-way 20-shot 和 5-way 50-shot。由于 CDFSL 是 FSL 的一个子领域,许多经典的 FSL 方法可以直接应用于 CDFSL 问题。表 6 显示了这些方法的结果,其中可以观察到,基于元学习的方法(如 MatchingNet、ProtoNet、RelationNet、MAML)由于存在领域差距,在 CDFSL 中性能略低于直接基于微调的迁移学习方法,特别是在 K 值增加的情况下。
K | Methods | CropDiseases | EuroSAT | ISIC | ChestX | Plantae | Places | Cars | CUB |
---|---|---|---|---|---|---|---|---|---|
1 | Fine-tuning 21 | 61.56±0.90 | 49.34±0.85 | 30.80±0.59 | 21.88±0.38 | 33.53±0.36 | 50.87±0.48 | 29.32±0.34 | 41.98±0.41 |
1 | MatchingNet 90 | 48.47±1.01 | 50.67±0.88 | 29.46±0.56 | 20.91±0.30 | 32.70 ± 0.60 | 49.86±0.79 | 30.77±0.47 | 35.89±0.51 |
1 | RelationNet 111 | 56.18±0.85 | 56.28±0.82 | 29.69±0.60 | 21.94±0.42 | 33.17±0.64 | 48.64±0.85 | 29.11±0.60 | 42.44±0.77 |
1 | ProtoNet 112 | 51.22±0.50 | 52.93±0.50 | 29.20±0.30 | 21.57±0.20 | - | - | - | - |
1 | GNN 113 | 64.48±1.08 | 63.69±1.03 | 32.02±0.66 | 22.00±0.46 | 35.60±0.56 | 53.10±0.80 | 31.79±0.51 | 45.69±0.68 |
5 | Fine-tuning | 90.64±0.54 | 81.76±0.48 | 49.68±0.36 | 26.09±0.96 | 47.40±0.36 | 66.47±0.41 | 38.91±0.38 | 58.75±0.36 |
5 | MatchingNet | 66.39±0.78 | 64.45±0.63 | 36.74±0.53 | 22.40±0.70 | 46.53±0.68 | 63.16±0.77 | 38.99±0.64 | 51.37±0.77 |
5 | MAML | 78.05±0.68 | 71.70±0.72 | 40.13±0.58 | 23.48±0.96 | - | - | - | 47.20±1.10 |
5 | RelationNet | 68.99±0.75 | 61.31±0.72 | 39.41±0.58 | 22.96±0.88 | 44.00±0.60 | 63.32±0.76 | 37.33±0.68 | 57.77±0.69 |
5 | ProtoNet | 79.72±0.67 | 73.29±0.71 | 39.57±0.57 | 24.05±1.01 | - | - | - | 67.00±1.00 |
5 | GNN | 87.96±0.67 | 83.64±0.77 | 43.94±0.67 | 25.27±0.46 | 52.53±0.59 | 70.84±0.65 | 44.28±0.63 | 62.25±0.65 |
20 | Fine-tuning | 95.91±0.72 | 87.97±0.42 | 61.09±0.44 | 31.01±0.59 | - | - | - | - |
20 | MatchingNet | 76.38±0.67 | 77.10±0.57 | 45.72±0.53 | 23.61±0.86 | - | - | - | - |
20 | MAML | 89.75±0.42 | 81.95±0.55 | 52.36±0.57 | 27.53±0.43 | - | - | - | - |
20 | RelationNet | 80.45±0.64 | 74.43±0.66 | 41.77±0.49 | 26.63±0.92 | - | - | - | - |
20 | ProtoNet | 88.15±0.51 | 82.27±0.57 | 49.50±0.55 | 28.21±1.15 | - | - | - | - |
50 | Fine-tuning | 97.48±0.56 | 92.00±0.56 | 67.20±0.59 | 36.79±0.53 | - | - | - | - |
50 | MatchingNet | 58.53±0.73 | 54.44±0.67 | 54.58±0.65 | 22.12±0.80 | - | - | - | - |
50 | RelationNet | 85.08±0.53 | 74.91±0.58 | 49.32±0.51 | 28.45±1.20 | - | - | - | - |
50 | ProtoNet | 90.81±0.43 | 80.48±0.57 | 51.99±0.52 | 29.32±1.12 | - | - | - | - |
此外,由于当前的 CDFSL 方法在各种实现需求(特定数据集、不同的网络骨干等)和配置(训练集、学习范式、模块等)方面存在差异,因而无法以统一且公平的方式对所有提出的 CDFSL 方法进行比较。然而,收集并展示一些具有代表性的 CDFSL 方法的关键细节(包括它们的需求、配置和性能亮点)仍然很重要。为此,我们在表 7 中总结了在常用基准 FGCB 和 BSCD-FSL 上评估的选定 CDFSL 方法的性能。1-shot 和 5-shot 的最佳结果分别用蓝色和红色突出显示。
对不同方法类别的最新性能进行比较表明,与旨在挖掘现有共享知识的方法相比,提高实例多样性以增加共享知识量更为有效。在 FGCB 中,混合方法表现最佳,充分利用了近领域迁移中多种策略的优势。CDFSL 中另一个有前景的方向是将即插即用模块集成到现有 FSL 模型中,例如 MatchingNet、RelationNet 和 GNN,如图 14 所示。最新的结果表明,这些模块在应用于 GNN 时性能最佳,突出了 GNN 在处理 CDFSL 任务方面比 MatchingNet 和 RelationNet 更具优势。
Fig. 14. 1-shot(实体区域)和 5-shot(斜线区域)方法性能比较,这些方法提出了新模块。所有方法均使用 ResNet10 作为骨干网络。“CropD” 为数据集 “CropDiseases”。
4.3.1 实例引导方法的评估
表 7 显示了一个明显的趋势,即当目标域与源域的距离增大时,性能会下降。例如,结果显示 CropDiseases 数据集上的准确率从 93.31% 下降到 ChestX 数据集上的 27.30%(5-way 5-shot)。对比 83 和 39 的结果发现,前者在 Places(88.08%)和 Cars(60.17%)上表现更优,但在其他两个数据集上的表现较差(42.96% 和 66.15% vs. 62.10% 和 73.57%)。这种差异可以归因于训练数据的不同,因为前者在训练过程中引入了 Places 和 Cars 数据,导致在这两个数据集上过拟合。而 35 和 32 在 BSCD-FSL 上的结果表明,将目标域数据引入训练过程可以提高目标域上的性能。然而,这种方法在近域迁移上效果更好,而在远域迁移上的效果有限。例如,与经典微调方法相比,32 在 CropDiseases 上提升了 4.90%,在 EuroSAT 上提升了 7.31%,但在 ISIC 上降低了 0.32%,在 ChestX 上仅提升了 2.22%。
实例引导的 CDFSL 方法在概念上相对简单,因为它们依赖于添加补充信息来增强模型的泛化能力。然而,它们的有效性高度依赖于训练过程中所使用信息的选择。如果训练中包含的额外域与目标域差异较大,或者选择的目标域样本不具有代表性,可能会对 CDFSL 性能产生负面影响。
类型 | 方法 | 会议 | 训练集 | 骨干网络 | K | CropDiseases | EuroSAT | ISIC | ChestX | Plantae | Places | Cars | CUB |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
实例 引导 | NSAE 40 | ICCV | miniImageNet | ResNet10 | 5 20 50 | 93.13±0.42 98.33±0.18 99.29±0.14 | 84.33±0.55 92.34±0.35 95.00±0.26 | 55.27±0.60 67.28±0.61 72.90±0.55 | 27.30±0.42 35.70±0.47 38.52±0.71 | 62.15±0.77 77.40±0.65 83.63±0.60 | 73.13±0.76 82.50±0.59 85.92±0.56 | 38.70±0.52 82.32±0.50 - | 52.87±0.75 88.09±0.48 91.00±0.79 |
实例 引导 | CosML 83 | arXiv | miniImageNet | Conv-4 | 5 20 50 | 93.53±0.12 99.33±0.19 99.65±0.11 | 84.33±0.45 94.50±0.23 95.52±0.14 | 52.78±0.41 67.48±0.53 70.98±0.35 | 27.90±0.30 30.50±0.74 33.57±0.72 | 63.72±0.47 80.52±0.42 - | 73.50±0.75 75.71±0.58 - | 38.50±0.60 48.30±0.33 - | 52.93±0.70 60.53±0.41 - |
实例 引导 | ISSNet 55 | arXiv | miniImageNet | ResNet10 | 5 20 50 | 73.40±0.48 82.35±0.64 88.00±0.42 | 64.50±0.58 75.22±0.60 82.99±0.48 | 36.06±0.69 47.00±0.57 55.22±0.45 | 23.43±0.50 29.88±0.45 35.00±0.40 | 53.45±0.80 66.00±0.67 70.55±0.58 | 68.21±0.47 74.50±0.61 79.52±0.50 | 39.12±0.56 45.00±0.48 51.00±0.50 | 48.72±0.53 56.30±0.46 61.89±0.42 |
实例 引导 | DSL 39 | ICLR | miniImageNet | ResNet10 | 5 20 50 | 93.42±0.40 98.27±0.18 99.42±0.15 | 83.60±0.48 92.42±0.42 95.10±0.32 | 54.12±0.67 67.56±0.61 72.70±0.55 | 27.44±0.36 35.50±0.45 38.20±0.61 | 63.00±0.71 77.20±0.65 83.52±0.56 | 72.10±0.85 80.20±0.71 84.50±0.50 | 39.37±0.40 47.60±0.35 53.25±0.48 | 52.79±0.65 62.33±0.48 69.50±0.53 |
实例 引导 | STARTUP 35 | ICLR | miniImageNet | ResNet10 | 5 20 50 | 93.02±0.45 98.34±0.20 99.58±0.15 | 81.65±0.74 91.56±0.45 94.10±0.32 | 62.48±0.44 70.00±0.61 75.58±0.55 | 26.80±0.64 32.50±0.52 36.80±0.61 | 64.00±0.76 78.40±0.64 85.52±0.55 | 73.67±0.54 82.00±0.61 88.52±0.46 | 40.32±0.42 47.80±0.48 53.22±0.42 | 54.78±0.74 64.20±0.52 71.65±0.48 |
– | – | – | – | – | – | – | – | – | – | – | – | – | – |
参数 为基础 | SB-MTL 57 | arXiv | miniImageNet | ResNet10 | 5 20 50 | 96.01±0.40 99.61±0.09 99.85±0.06 | 87.30±0.68 96.53±0.28 98.71±0.57 | 53.50±0.79 70.31±0.72 83.54±0.66 | 28.00±0.54 35.50±0.45 40.52±0.47 | - | - | - | |
参数 为基础 | VDB 64 | CVPRW | miniImageNet | ResNet10 | 1 5 20 50 | 71.98±0.82 90.77±0.49 90.98±0.44 97.89±0.42 | 63.60±0.87 77.10±0.45 89.24±0.57 89.24±0.45 | 32.90±0.53 48.00±0.41 56.84±0.45 64.23±0.47 | 22.85±0.45 25.00±0.50 35.20±0.45 40.54±0.55 | - | - | - | |
参数 为基础 | FGNN 60 | KBS | miniImageNet | ResNet18 | 1 5 20 50 | 75.46±0.76 85.29±0.54 91.93±0.49 98.40±0.51 | 67.76±0.83 85.09±0.52 90.77±0.57 93.95±0.47 | 33.22±0.58 47.85±0.58 55.87±0.49 60.84±0.57 | 22.85±0.44 25.77±0.50 32.90±0.42 38.40±0.54 | - | - | - | |
参数 为基础 | MAP 62 | arXiv | miniImageNet | ResNet10 | 5 20 | 90.29±1.56 95.22±1.13 | 82.76±2.00 88.11±1.78 | 47.85±1.95 60.16±2.70 | 24.75±0.58 30.42±0.61 | - | - | - | |
参数 为基础 | HVM 38 | ICLR | miniImageNet | ResNet10 | 5 | 87.65±0.35 | 74.88±0.45 | 42.05±0.34 | 27.15±0.45 | - | - | - | |
参数 为基础 | ReFine 63 | ICMLW | miniImageNet | ResNet10 | 1 5 | 68.93±0.84 90.75±0.49 | 64.14±0.82 82.36±0.57 | 35.30±0.50 51.68±0.63 | 22.40±0.52 26.67±0.42 | - | - | - | |
– | – | – | – | – | – | – | – | – | – | – | – | – | – |
特征 后处理 | CHEF 71 | arXiv | miniImageNet | ResNet18 | 5 20 50 | 86.87±0.27 93.31±0.14 96.77±0.08 | 74.15±0.27 83.31±0.14 86.55±0.15 | 41.26±0.34 54.30±0.34 60.86±0.18 | 24.72±0.14 29.71±0.27 31.25±0.20 | - | - | ||
特征 后处理 | LRP 30 | ICPR | miniImageNet | ResNet10 | 1 5 | - - | - - | - - | - - | 34.80±0.37 48.09±0.35 | 50.59±0.46 66.90±0.40 | 29.65±0.33 39.19±0.38 | 42.44±0.41 59.30±0.40 |
特征 后处理 | Confess 37 | ICLR | miniImageNet | ResNet10 | 5 20 50 | 88.88±0.51 90.40±0.24 92.66±0.36 | 48.85±0.29 60.10±0.33 65.34±0.45 | 27.09±0.24 33.57±0.31 39.02±0.12 | - | - | - | ||
特征 后处理 | BL-ES 76 | ICME | miniImageNet | ResNet18 | 5 | 79.78±0.83 | - | - | - | - | - | ||
特征 后处理 | TACDFSL 73 | Symmetry | miniImageNet | WideResNet | 5 20 50 | 93.42±0.55 95.49±0.39 95.88±0.35 | 45.39±0.67 53.15±0.59 56.68±0.58 | 25.32±0.48 29.17±0.52 31.75±0.51 | - | 50.07±0.84 | 69.63±0.88 | ||
特征 后处理 | RDC 74 | CVPR | miniImageNet | ResNet10 | 5 20 | 86.33±0.50 93.55±0.30 | 71.57±0.50 84.67±0.30 | 35.84±0.40 49.06±0.30 | 22.27±0.20 25.48±0.20 | 44.33±0.44 53.75±0.50 | 60.63±0.50 67.77±0.40 | ||
– | – | – | – | – | – | – | – | – | – | – | – | – | – |
混合 | FDMixup 31 | ACM MM | miniImageNet | ResNet10 | 1 5 | 66.23±1.03 87.27±0.69 | 62.97±0.64 80.48±0.79 | 32.48±0.64 44.28±0.66 | 22.26±0.45 24.52±0.44 | 37.89±0.58 54.62±0.65 | 53.57±0.75 73.42±0.65 | 31.14±0.51 41.30±0.58 | 46.38±0.68 64.71±0.68 |
混合 | TL-SS 87 | AAAI | miniImageNet | ResNet10 | 1 5 | - - | 65.73 79.36 | - - | - - | - - | 55.83 76.33 | 33.22 49.82 | 45.92 69.16 |
混合 | TGDM 82 | ACM MM | miniImageNet | ResNet10 | 1 5 | - - | - - | - - | - - | 52.39±0.25 71.78±0.22 | 61.88±0.26 81.62±0.19 | 50.70±0.24 70.99±0.21 | 64.80±0.26 84.21±0.18 |
混合 | ME-D2N 86 | ACM MM | miniImageNet | ResNet10 | 1 5 | - - | 52.89±0.83 72.87±0.67 | 60.36±0.86 80.45±0.62 | 49.53±0.79 69.17±0.68 | 65.05±0.83 83.17±0.56 | - - | - - | - - |
类型 | 方法 | 亮点 |
---|---|---|
实例引导 | NSAE 40 CosML 83 ISSNet 55 DSL 39 STARTUP 35 DDA 32 | 利用来自源域的潜在噪声信息来捕捉特征分布的更广泛变化 探索多域预训练方案,快速适应模型到未见域 在多个来源之间传递风格,以扩大标记源的分布 通过快速切换目标,将跨域场景引入训练阶段 使用目标域的未标记数据进行源表示的自训练 提出了一种基于动态蒸馏的方法,以增强未标记目标数据的利用 |
参数为基础 | SB-MTL 57 VDB 64 FGNN 60 MAP 62 HVM 38 ReFine 63 | 利用一阶 MAML 算法来识别最佳初始化,并采用基于分数的 GNN 进行预测 通过引入 “视觉域桥” 概念,提出一种无源方法,旨在减轻跨域设置中 BatchNorm 内部失配的问题 探讨实例归一化和恢复模块,以提高性能 依次选择性地执行最先进的自适应方法,并与模块化自适应方法结合 引入一种分层原型模型和分层替代方案,通过灵活利用不同语义级别的特征来解决域间差距 在适应目标数据之前,随机化从源域拟合的参数 |
特征后处理 | CHEF 71 LRP 30 Confess 37 BL-ES 76 TACDFSL 73 RDC 74 | 通过 Hebbian 学习器在网络的不同层上操作,融合表示 开发了一种由解释指导的训练策略,用于识别重要特征 探讨对比学习和特征选择系统,以解决基础类别和新类别之间的域间差距 提出一种双层情节策略,训练一个用于比较学习和归纳学习的归纳图网络 引入经验边际分布测量 通过构造子空间来最小化与任务无关的特征 |
混合 | FDMixup 31 TL-SS 87 TGDM 82 ME-D2N 86 | 使用少量标记的目标数据指导模型学习 引入了一种与域无关的自监督学习方法 一种方法生成中间域,以促进少样本学习任务 AME-D2N 利用多专家学习方法来创建模型 |
4.3.2 基于参数方法的评估
从表 7 中的数据来看,基于参数的方法性能总体上相较于其他两类方法较差。使用 ResNet10 作为网络骨干时,57 在 BSCD-FSL(5-way 5-shot)上的结果体现了这一趋势,分别为 96.01%(CropDiseases)、87.30%(EuroSAT)、53.50%(ISIC)和 28.08%(ChestX)。该类别中其他方法的结果甚至更低。对比 64 在 BSCD-FSL 上使用 ResNet10(CropDiseases 90.77%、EuroSAT 82.06%、ISIC 48.72%、ChestX 26.62%)和 ResNet18(CropDiseases 93.11%、EuroSAT 85.29%、ISIC 47.48%、ChestX 25.25%)作为网络骨干时的表现可以发现,增加网络深度虽然可以增强近域数据集(CropDiseases、EuroSAT)的性能,但却降低了远域数据集(ISIC、ChestX)的性能。因此,在基于 ResNet10 的情况下,近域和远域性能之间的平衡表现最佳。
我们对表 7 的分析揭示,基于参数的方法的性能往往不如前两类方法。这被认为是由于这些方法通过模块对网络参数进行局部调整以适应新域,尽管这减少了假设空间,但实际上由于额外参数的有限引入而限制了对数据分布和假设空间的适应性。因此,基于参数的 CDFSL 方法在增强和挖掘共享知识方面常面临局限性,使其在解决两阶段经验风险最小化问题时比其他类别的方法更具挑战。因此,研究人员需要探索新的方法和技术来克服这些限制,并提高基于参数的方法在 CDFSL 中的性能。
4.3.3 基于特征后处理方法的评估
尽管由于使用不同的网络骨干而无法直接比较不同特征后处理方法的性能,但仍可以注意到这些方法在远域任务上的表现可能不及实例引导方法。这可以通过对比两个具有代表性的方法来说明:74 在 BSCD-FSL 上的结果(CropDiseases 93.55%、EuroSAT 84.67%、ISIC 49.06%、ChestX 25.48%)不如 40 在同一基准上的结果(CropDiseases 93.31%、EuroSAT 84.33%、ISIC 55.27%、ChestX 27.30%)。在 FGCB 上的结果也反映了这种趋势(62.15%、73.17%、58.30%、71.92% vs. 60.63%、74.65%、53.75%、67.77%)。这些观察表明,虽然特征后处理方法仍然可以带来一些改进,但在解决 CDFSL 问题方面可能不如实例引导方法有效。
对比实例引导和特征后处理方法的结果揭示了它们在挖掘源域和目标域共享知识方面的差异。实例引导方法侧重于在训练阶段引入额外信息,从而有效地创建更有利的共享特征提取环境。而特征后处理方法则旨在最大化利用有限的共享知识,这是一种更具限制性的方法。
4.3.4 混合方法的评估
目前,在 CDFSL 背景下探索混合方法的研究数量有限,但对这些工作的分析表明,混合方法在 FGCB 和 BSCD-FSL 上的性能与其他方法相当。例如,87 的研究在 Places、Cars 和 CUB 数据集上的结果分别为 76.33%、49.82% 和 69.16%,而 62 在相同数据集上的结果分别为 75.94%、51.64% 和 67.92%。需要注意的是,将不同类别方法的策略组合在一起存在一定的风险,因为不同策略之间可能存在负面交互。这强调了在混合方法中匹配策略时所需的高精度。最终,选择使用哪种方法取决于具体任务和可用数据,以及模型所需的泛化程度和灵活性。
4.3.5 Meta-Dataset 上的评估
在 Meta-Dataset 28 上测试的技术使用非 episode 式训练,评估结果如表 8 所示。评估使用了两种设置:单一源域(源域为 ImageNet)和多源域(源域为前八个数据集)。在单一源域设置中,ProtoNet、MAML 和 Pro-MAML 用作基线,以与所提出的方法进行比较。结果显示,70 在五个目标数据集上取得了最佳结果,而 66 在其余五个目标数据集上表现最好。此外,结果还表明更深的网络骨干(如 66 中的 ResNet34)往往优于较浅的网络骨干(如 ResNet18)。
基于多源的模型训练结果显示 66 在所有目标数据集上均取得了最高性能。这被认为是由于该技术有效地结合了多个源域,并采用了科学设计的参数重加权策略。对比 66 使用 ResNet18 的两种设置,显示多数据集的引入在八个已知数据集上显著提升了性能,但在一个未知数据集上仅有适度的提升。这表明在没有经过仔细考虑的情况下引入多个域可能不会显著提高性能。
总之,与传统 FSL 技术相比,所提出的方法显著提高了 CDFSL 的性能,证明了这些方法在解决 CDFSL 问题方面的有效性。
5 未来工作
尽管 CDFSL 已取得显著进展,但它仍然面临着独特的挑战,需要进一步关注。因此,我们从问题设置、应用和理论三个方面分别提出了一些未来有希望的研究方向。
5.1 问题设置
基于主动学习的 CDFSL
在第 2.4.3 节中,我们讨论了 CDFSL 中源域和目标域之间共享知识有限的挑战,这主要是由域间差距和任务转移导致的,特别是在源域和目标域差异较大且目标域数据稀少时。为了解决这个挑战,扩展并充分利用源域和目标域之间的共享信息至关重要。主动学习(AL)通过选择最具信息量的样本进行标注,在领域自适应 114 115 和少样本学习 116 117 中获得了越来越多的关注。例如,115 通过增强分类和多样性中不确定性较大的样本权重,提高目标域的识别性能。此外,116 将 FSL 与 AL 相结合,提出了用于训练文本分类模型的快速迭代平台 FASL。由于 AL 选择了最具信息量的数据,因此非常适合 CDFSL 问题,因为它可以促进跨域和跨任务学习。因此,将 AL 应用于解决 CDFSL 问题是一个值得进一步研究的方向。
传导式 CDFSL
传导推理是指通过观察特定训练样本来预测单个测试样本。在训练样本有限而测试样本丰富的情况下,利用归纳推理生成的类别判别模型通常会产生次优性能。而传导推理则利用无标签测试样本的信息来识别簇,从而提高分类准确性。许多研究已成功地将传导推理应用于 FSL 问题,取得了令人鼓舞的成果 118 119 120。作为 FSL 的一个子领域,利用传导推理来提高 CDFSL 性能是一个值得探索的方向。
增量式 CDFSL
当前的 CDFSL 方法设计用于解决目标域上的 FSL 任务,但通常会遭受灾难性遗忘,导致源域上的性能下降。然而,一个有效的模型应保留来自两个域和任务的先验知识。因此,在 CDFSL 中解决灾难性遗忘的问题至关重要。最近在增量学习和持续学习方面的进展已被应用于 FSL,以应对任务增量问题 121 122 123。例如,122 通过稳定网络拓扑来最小化先前类别的遗忘。而 123 则只在每个增量会话中更新分类器,以避免擦除特征提取器的知识。受这些技术启发,未来在领域增量学习方面的研究也至关重要。因此,此设置的目标是训练模型在扩展到新域和新任务的同时保持对先前域和任务的性能。
可解释性引导的 CDFSL
当前 CDFSL 的技术依赖于黑盒特征生成,这阻碍了对哪些特征最适合泛化以及哪些因素影响模型性能的理解。65 最近的研究引入了注意力机制来识别每个样本区域的重要性。然而,该方法仍需针对跨域和跨任务设置进行改进。最近,124 125 引入了因果推理来解释 FSL 中因素之间的因果关系,使模型更具可解释性并能够获取共享知识。例如,125 提出了一个结构化因果模型(SCM)来挖掘 FSL 中预训练知识、样本特征和标签之间的因果关系。因此,以可解释性引导的特征表示为重点的研究是提高 CDFSL 模型性能的有前景的方向。
多模态/多视图 CDFSL
通过结合来自不同模态的附加模态信息,我们可以增强 CDFSL 的性能,正如在零样本学习中已证明的那样 126,来自不同模态的信息可以有助于处理未见过的任务。特别是,多模态 CDFSL 可以从不同视角提供额外的见解,进一步提升 CDFSL 的性能。因此,探索多模态 CDFSL 是一个值得追求的研究方向。
不平衡 CDFSL
当前的 CDFSL 任务假设各种类别中标记样本数量均衡,但这可能不符合现实世界的场景。然而,现有的 FSL 研究已通过数据增强和类别不平衡损失等技术解决了数据不平衡问题。例如,127 提出了一种数据增强方法来重新平衡原始不平衡数据,而 128 则提出了一种类别不平衡损失来解决 FSL 中的不平衡问题。因此,可以调整这些技术来解决 CDFSL 中的不平衡问题。
5.2 应用
由于 CDFSL 能够同时解决域和任务转移问题以及少样本学习问题,它在数据有限的各种计算机视觉(CV)领域中得到了广泛的应用。本节将重点介绍一些有前景的 CDFSL 应用,包括检测罕见类型的癌症 129、目标跟踪 24、智能故障诊断 130 以及解决 AI 算法偏差等。
罕见癌症检测
癌症是一种需要早期检测的严重疾病。由于数据稀缺,罕见癌症的检测尤为关键。一些研究已经使用少样本学习来解决罕见癌症检测问题 131 132。然而,从与目标数据相同分布中获取大量辅助数据往往具有挑战性,这需要在罕见癌症检测中使用 CDFSL。CDFSL 允许利用来自其他域的辅助数据,显著放宽了 FSL 中对源数据的限制,并增强了由于医学样本稀少导致的低检测率。因此,CDFSL 是克服罕见癌症检测挑战的有前景的方法。
目标跟踪
目标跟踪 133 是一个关键的计算机视觉任务,旨在根据初始帧中选定对象的位置预测后续帧中这些对象的位置。该任务与少样本学习任务设定紧密相关,涉及使用极少数据进行分类。因此,一些研究人员 134 将少样本学习应用于目标跟踪。然而,由于设备和数据采集方法的差异,辅助数据和目标数据之间通常存在域差距。现有的 FSL 技术尚未有效解决这些域间差距。因此,CDFSL 已成为解决目标跟踪挑战的有前景的方向。
智能故障诊断
智能故障诊断 130 是利用各种诊断方法在早期阶段检测机器故障的过程。然而,建立用于训练智能诊断模型的理想数据集是一项具有挑战性的任务。为了解决这个问题,135 引入了来自其他领域的数据并使用少样本算法。因此,智能故障诊断是 CDFSL 的一个有前景的应用方向。
解决算法偏差问题
目前,AI 算法依赖于训练数据来解决许多现实生活中的问题。然而,数据中固有的偏差可能会被算法编译和放大。例如,当数据集中关于某个特定群体的信息较少时,基于该数据集训练的算法可能会对该群体做出错误的预测,从而导致算法偏差 136。这是人工智能中的一个关键伦理问题。一个好的 AI 算法应该减少数据集中的偏差,而不是放大它。CDFSL 是解决算法偏差的潜在探索方向,因为它侧重于通过解决域转移和任务转移来减少数据集中的偏差,并推广到新的域和任务。此外,CDFSL 可以帮助最大限度地减少由于数据集中某个特定群体样本较少而导致的性能损失。
5.3 理论
不变风险最小化(IRM)
机器学习系统通常会在训练数据中捕获所有存在的相关性,包括由于现有数据偏差而导致的虚假相关性。为了确保对新环境的泛化能力,至关重要的是要舍弃那些在未来不成立的虚假相关性。不变风险最小化(IRM)是一种由 137 提出的学习范式,通过从多个训练环境中估计非线性、不变的因果预测模型来减少机器学习系统对数据偏差的过度依赖。虽然该领域的探索还处于早期阶段,但 IRM 对于 CDFSL 至关重要,因为源域和目标域之间存在领域和任务迁移。在 CDFSL 中,从源域学习到的虚假相关性在适应目标域任务时必须被舍弃,这使得 IRM 的发展对于 CDFSL 至关重要。通过探索适用于 CDFSL 的 IRM,我们可以显著提高 CDFSL 在目标域上的性能。
多源域组织
虽然 CDFSL 中的一些当前工作旨在利用多个源域来提高目标域上的 FSL 性能,但关于如何有效地组织这些源域的理论研究仍然有限,包括如何选择和利用它们以最大化 FSL 性能。在该领域中开展相关理论研究可以极大地推动 CDFSL 中多源域的应用。138 提供了一个很好的参考方向,为多源域组织提供了理论支持,这可能会引导更合理且优越的多源域 CDFSL 工作。
域泛化
CDFSL 的进一步目标不仅应是对特定域的泛化,而且应是对所有域的泛化。关于域泛化的理论研究 139 对支持这一目标至关重要。通过利用这类研究,CDFSL 可以转化为少样本域泛化学习问题,最终使模型能够在各种域之间实现泛化。
** 结论**
跨域少样本学习(CDFSL)是少样本学习(FSL)的一个分支,它允许模型利用其他域中的样本来提高目标域上的 FSL 性能,从而消除了 FSL 中源域和目标域相同的限制。CDFSL 减少了为各种工业应用收集大量监督数据的负担。在本综述中,我们对 CDFSL 进行了全面而系统的审查,从监督学习、原始 FSL 问题的定义开始,最终引出 CDFSL 的定义。我们探讨了 CDFSL 与相关主题之间的相似性和区别,例如半监督领域自适应、无监督领域自适应、域泛化、少样本学习和多任务学习。此外,我们重点阐述了 CDFSL 的主要挑战,即不可靠的两阶段经验风险最小化以及获取优秀共享特征的难点。我们将解决这些挑战的不同方法分为实例引导、基于参数、特征后处理和混合方法,并探讨了每种方法的优点和局限性。同时,我们介绍了 CDFSL 中使用的数据集和基准,以及不同技术的性能表现。最后,我们讨论了 CDFSL 的未来方向,包括对问题设置、应用和理论的探索。
Yann LeCun, Yoshua Bengio, and Geoffrey Hinton. 2015. Deep learning. nature 521, 7553 (2015), 436–444. ↩︎
Neha Sharma, Vibhor Jain, and Anju Mishra. 2018. An analysis of convolutional neural networks for image classification. Procedia computer science 132 (2018), 377–384. ↩︎
Wei Wang, Yujing Yang, Xin Wang, Weizheng Wang, and Ji Li. 2019. Development of convolutional neural network and its application in image classification: a survey. Optical Engineering 58, 4 (2019), 040901–040901. ↩︎
King-Sun Fu and JK Mui. 1981. A survey on image segmentation. Pattern recognition 13, 1 (1981), 3–16. ↩︎
Antonio Tavera, Fabio Cermelli, Carlo Masone, and Barbara Caputo. 2022. Pixel-by-pixel cross-domain alignment for few-shot semantic segmentation. In Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision. 1626–1635. ↩︎
Nadia Magnenat-Thalmann and Daniel Thalmann. 2012. Image synthesis: theory and practice. Springer Science & Business Media. ↩︎
Xian Wu, Kun Xu, and Peter Hall. 2017. A survey of image synthesis and editing with generative adversarial networks. Tsinghua Science and Technology 22, 6 (2017), 660–674. ↩︎
Yipeng Gao, Lingxiao Yang, Yunmu Huang, Song Xie, Shiyong Li, and Wei-Shi Zheng. 2022. AcroFOD: An Adaptive Method for Cross-domain Few-shot Object Detection. In European Conference on Computer Vision. Springer, 673–690. ↩︎
Li Liu, Wanli Ouyang, Xiaogang Wang, Paul Fieguth, Jie Chen, Xinwang Liu, and Matti Pietikäinen. 2020. Deep learning for generic object detection: A survey. International journal of computer vision 128 (2020), 261–318. ↩︎
Susan Carey and Elsa Bartlett. 1978. Acquiring a single new word. (1978). ↩︎
Li Fei-Fei, Robert Fergus, and Pietro Perona. 2006. One-shot learning of object categories. IEEE transactions on pattern analysis and machine intelligence 28, 4 (2006), 594–611. ↩︎
Jiang Lu, Pinghua Gong, Jieping Ye, and Changshui Zhang. 2020. Learning from very few samples: A survey. arXiv preprint arXiv:2009.02653 (2020). ↩︎ ↩︎ ↩︎ ↩︎
Archit Parnami and Minwoo Lee. 2022. Learning from Few Examples: A Summary of Approaches to Few-Shot Learning. arXiv preprint arXiv:2203.04291 (2022). ↩︎ ↩︎ ↩︎ ↩︎
Jun Shu, Zongben Xu, and Deyu Meng. 2018. Small sample learning in big data era. arXiv preprint arXiv:1808.04572 (2018). ↩︎ ↩︎ ↩︎
Yisheng Song, Ting Wang, Puyu Cai, Subrota K Mondal, and Jyoti Prakash Sahoo. 2023. A Comprehensive Survey of Few-Shot Learning: Evolution, Applications, Challenges, and Opportunities. ACM Comput. Surv. (Feb 2023). https://doi.org/10.1145/3582688. ↩︎ ↩︎ ↩︎
Yaqing Wang, Quanming Yao, James T Kwok, and Lionel M Ni. 2020. Generalizing from a few examples: A survey on few-shot learning. ACM computing surveys (csur) 53, 3 (2020), 1–34. ↩︎ ↩︎ ↩︎
Andrey Zhmoginov, Mark Sandler, and Maksym Vladymyrov. 2022. Hypertransformer: Model generation for supervised and semi-supervised few-shot learning. In International Conference on Machine Learning. PMLR, 27075–27098. ↩︎
Zhengping Hu, Zijun Li, Xueyu Wang, and Saiyue Zheng. 2022. Unsupervised descriptor selection based meta-learning networks for few-shot classification. Pattern Recognition 122 (2022), 108304. ↩︎
Hao Zhu and Piotr Koniusz. 2022. EASE: Unsupervised discriminant subspace learning for transductive few-shot learning. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 9078–9088. ↩︎
Farhad Pourpanah, Moloud Abdar, Yuxuan Luo, Xinlei Zhou, Ran Wang, Chee Peng Lim, Xi-Zhao Wang, and QM Jonathan Wu. 2022. A review of generalized zero-shot learning methods. IEEE transactions on pattern analysis and machine intelligence (2022). ↩︎
Yunhui Guo, Noel C Codella, Leonid Karlinsky, James V Codella, John R Smith, Kate Saenko, Tajana Rosing, and Rogerio Feris. 2020. A broader study of cross-domain few-shot learning. In European conference on computer vision. Springer, 124–141. ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
Hung-Yu Tseng, Hsin-Ying Lee, Jia-Bin Huang, and Ming-Hsuan Yang. 2020. Cross-domain few-shot classification via learned feature-wise transformation. arXiv preprint arXiv:2001.08735 (2020). ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
Wang Yan, Jordan Yap, and Greg Mori. 2015. Multi-task transfer methods to improve one-shot learning for multimedia event detection. In BMVC. 37–1. ↩︎
Luca Bertinetto, João F Henriques, Jack Valmadre, Philip Torr, and Andrea Vedaldi. 2016. Learning feed-forward one-shot learners. Advances in neural information processing systems 29 (2016). ↩︎ ↩︎
Tomas Pfister, James Charles, and Andrew Zisserman. 2014. Domain-adaptive discriminative one-shot learning of gestures. In European Conference on Computer Vision. Springer, 814–829. ↩︎
Wei-Yu Chen, Yen-Cheng Liu, Zsolt Kira, Yu-Chiang Frank Wang, and Jia-Bin Huang. 2019. A Closer Look at Few-shot Classification. In International Conference on Learning Representations. ↩︎ ↩︎
Akihiro Nakamura and Tatsuya Harada. 2019. Revisiting fine-tuning for few-shot learning. arXiv preprint arXiv:1910.00216 (2019). ↩︎ ↩︎
Eleni Triantafillou, Tyler Zhu, Vincent Dumoulin, Pascal Lamblin, Utku Evci, Kelvin Xu, Ross Goroshin, Carles Gelada, Kevin Swersky, Pierre-Antoine Manzagol, et al. 2019. Meta-dataset: A dataset of datasets for learning to learn from few examples. arXiv preprint arXiv:1903.03096 (2019). ↩︎ ↩︎ ↩︎ ↩︎
Jiechao Guan, Manli Zhang, and Zhiwu Lu. 2020. Large-scale cross-domain few-shot learning. In Proceedings of the Asian Conference on Computer Vision. ↩︎ ↩︎ ↩︎
Jiamei Sun, Sebastian Lapuschkin, Wojciech Samek, Yunqing Zhao, Ngai-Man Cheung, and Alexander Binder. 2021. Explanation-guided training for cross-domain few-shot classification. In 2020 25th International Conference on Pattern Recognition (ICPR). IEEE, 7609–7616. ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
Yuqian Fu, Yanwei Fu, and Yu-Gang Jiang. 2021. Meta-fdmixup: Cross-domain few-shot learning guided by labeled target data. In Proceedings of the 29th ACM International Conference on Multimedia. 5326–5334. ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
Ashraful Islam, Chun-Fu Richard Chen, Rameswar Panda, Leonid Karlinsky, Rogerio Feris, and Richard J Radke. 2021. Dynamic distillation network for cross-domain few-shot recognition with unlabeled data. Advances in Neural Information Processing Systems 34 (2021), 3584–3595. ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
Wei-Hong Li, Xialei Liu, and Hakan Bilen. 2021. Universal representation learning from multiple domains for few-shot classification. In Proceedings of the IEEE/CVF International Conference on Computer Vision. 9526–9535. ↩︎ ↩︎ ↩︎
Yanbin Liu, Juho Lee, Linchao Zhu, Ling Chen, Humphrey Shi, and Yi Yang. 2021. A multi-mode modulator for multi-domain few-shot classification. In Proceedings of the IEEE/CVF International Conference on Computer Vision. 8453–8462. ↩︎ ↩︎ ↩︎
Cheng Perng Phoo and Bharath Hariharan. 2020. Self-training for few-shot transfer across extreme task differences. arXiv preprint arXiv:2010.07734 (2020). ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
Wentao Chen, Zhang Zhang, Wei Wang, Liang Wang, Zilei Wang, and Tieniu Tan. 2022. Cross-Domain Cross-Set Few-Shot Learning via Learning Compact and Aligned Representations. In European Conference on Computer Vision. Springer, 383–399. ↩︎ ↩︎ ↩︎
Debasmit Das, Sungrack Yun, and Fatih Porikli. 2022. ConfeSS: A framework for single source cross-domain few-shot learning. In International Conference on Learning Representations. ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
Yingjun Du, Xiantong Zhen, Ling Shao, and Cees GM Snoek. 2021. Hierarchical Variational Memory for Few-shot Learning Across Domains. arXiv preprint arXiv:2112.08181 (2021). ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
Zhengdong Hu, Yifan Sun, and Yi Yang. 2021. Switch to generalize: Domain-switch learning for cross-domain few-shot classification. In International Conference on Learning Representations. ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
Hanwen Liang, Qiong Zhang, Peng Dai, and Juwei Lu. 2021. Boosting the generalization capability in cross-domain few-shot learning via noise-enhanced supervised autoencoder. In Proceedings of the IEEE/CVF International Conference on Computer Vision. 9424–9434. ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
Haoqing Wang and Zhi-Hong Deng. 2021. Cross-domain few-shot classification via adversarial task augmentation. arXiv preprint arXiv:2104.14385 (2021). ↩︎ ↩︎ ↩︎ ↩︎
Yi Xu, Lichen Wang, Yizhou Wang, Can Qin, Yulun Zhang, and Yun Fu. 2021. MemREIN: Rein the Domain Shift for Cross-Domain Few-Shot Learning. (2021). ↩︎ ↩︎ ↩︎
Tom Mitchell, Bruce Buchanan, Gerald DeJong, Thomas Dietterich, Paul Rosenbloom, and Alex Waibel. 1990. Machine learning. Annual review of computer science 4, 1 (1990), 417–433. ↩︎ ↩︎
Mehryar Mohri, Afshin Rostamizadeh, and Ameet Talwalkar. 2018. Foundations of machine learning. MIT press. ↩︎ ↩︎
Nilesh Tripuraneni, Michael Jordan, and Chi Jin. 2020. On the theory of transfer learning: The importance of task diversity. Advances in Neural Information Processing Systems 33 (2020), 7852–7862. ↩︎ ↩︎
Sinno Jialin Pan and Qiang Yang. 2009. A survey on transfer learning. IEEE Transactions on knowledge and data engineering 22, 10 (2009), 1345–1359. ↩︎ ↩︎
Qiang Yang, Yu Zhang, Wenyuan Dai, and Sinno Jialin Pan. 2020. Transfer Learning. Cambridge University Press. https://doi.org/10.1017/9781139061773. ↩︎
Mehryar Mohri, Afshin Rostamizadeh, and Ameet Talwalkar. 2018. Foundations of machine learning. MIT press. ↩︎
Vladimir Vapnik. 1991. Principles of risk minimization for learning theory. Advances in neural information processing systems 4 (1991). ↩︎
Wei-Hong Li, Xialei Liu, and Hakan Bilen. 2022. Universal Representations: A Unified Look at Multiple Task and Domain Learning. arXiv preprint arXiv:2204.02744 (2022). ↩︎ ↩︎
Mingxi Li, Ronggui Wang, Juan Yang, Lixia Xue, and Min Hu. 2021. Multi-domain few-shot image recognition with knowledge transfer. Neurocomputing 442 (2021), 64–72. ↩︎ ↩︎
Yuxuan Gong, Yuqi Yue, Weidong Ji, and Guohui Zhou. 2023. Cross-domain few-shot learning based on pseudo-Siamese neural network. Scientific Reports 13, 1 (2023), 1427. ↩︎ ↩︎
Xiyao Liu, Zhong Ji, Yanwei Pang, and Zhi Han. 2023. Self-taught cross-domain few-shot learning with weakly supervised object localization and task-decomposition. Knowledge-Based Systems (2023), 110358. ↩︎ ↩︎
Wei-Yu Lee, Jheng-Yu Wang, and Yu-Chiang Frank Wang. 2022. Domain-Agnostic Meta-Learning for Cross-Domain Few-Shot Classification. In ICASSP 2022-2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 1715–1719. ↩︎ ↩︎
Huali Xu and Li Liu. 2022. Cross-Domain Few-Shot Classification via Inter-Source Stylization. arXiv preprint arXiv:2208.08015 (2022). ↩︎ ↩︎ ↩︎ ↩︎
Fupin Yao. 2021. Cross-domain few-shot learning with unlabelled data. arXiv preprint arXiv:2101.07899 (2021). ↩︎ ↩︎
John Cai, Bill Cai, and Sheng Mei Shen. 2020. SB-MTL: Score-based meta transfer-learning for cross-domain few-shot learning. arXiv preprint arXiv:2012.01784 (2020). ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
Rui-Qi Wang, Xu-Yao Zhang, and Cheng-Lin Liu. 2021. Meta-prototypical learning for domain-agnostic few-shot recognition. IEEE Transactions on Neural Networks and Learning Systems (2021). ↩︎ ↩︎
Li Yalan and Wu Jijie. 2021. Cross-Domain Few-Shot Classification through Diversified Feature Transformation Layers. In 2021 IEEE International Conference on Artificial Intelligence and Computer Applications (ICAICA). IEEE, 549–555. ↩︎ ↩︎
Yu Chen, Yunan Zheng, Zhenyu Xu, Tianhang Tang, Zixin Tang, Jie Chen, and Yiguang Liu. 2022. Cross-Domain Few-Shot Classification based on Lightweight Res2Net and Flexible GNN. Knowledge-Based Systems 247 (2022), 108623. ↩︎ ↩︎ ↩︎ ↩︎
Pei-Cheng Tu and Hsing-Kuo Pao. 2021. A Dropout Style Model Augmentation for Cross Domain Few-Shot Learning. In 2021 IEEE International Conference on Big Data (Big Data). IEEE, 1138–1147. ↩︎ ↩︎
Xiao Lin, Meng Ye, Yunye Gong, Giedrius Buracas, Nikoletta Basiou, Ajay Divakaran, and Yi Yao. 2021. Modular Adaptation for Cross-Domain Few-Shot Learning. arXiv preprint arXiv:2104.00619 (2021). ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
Jaehoon Oh, Sungnyun Kim, Namgyu Ho, Jin-Hwa Kim, Hwanjun Song, and Se-Young Yun. 2022. ReFine: Rerandomization before Fine-tuning for Cross-domain Few-shot Learning. arXiv preprint arXiv:2205.05282 (2022). ↩︎ ↩︎ ↩︎ ↩︎
Moslem Yazdanpanah and Parham Moradi. 2022. Visual Domain Bridge: A Source-Free Domain Adaptation for Cross-Domain Few-Shot Learning. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2868–2877. ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
Liangbing Sa, Chongchong Yu, Xianqin Ma, Xia Zhao, and Tao Xie. 2022. Attentive fine-grained recognition for cross-domain few-shot classification. Neural Computing and Applications 34, 6 (2022), 4733–4746. ↩︎ ↩︎ ↩︎
Wei-Hong Li, Xialei Liu, and Hakan Bilen. 2022. Cross-domain Few-shot Learning with Task-specific Adapters. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 7161–7170. ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
Yanxu Hu and Andy J Ma. 2022. Adversarial Feature Augmentation for Cross-domain Few-Shot Classification. In European Conference on Computer Vision. Springer, 20–37. ↩︎ ↩︎ ↩︎
Yuqian Fu, Yu Xie, Yanwei Fu, Jingjing Chen, and Yu-Gang Jiang. 2022. Wave-SAN: Wavelet based Style Augmentation Network for Cross-Domain Few-Shot Learning. arXiv preprint arXiv:2203.07656 (2022). ↩︎ ↩︎
Zhewei Weng, Chunyan Feng, Tiankui Zhang, Yutao Zhu, and Zeren Chen. 2021. Representative Multi-Domain Feature Selection Based Cross-Domain Few-Shot Classification. In 2021 7th IEEE International Conference on Network Intelligence and Digital Content (IC-NIDC). IEEE, 86–90. ↩︎ ↩︎
Nikita Dvornik, Cordelia Schmid, and Julien Mairal. 2020. Selecting relevant features from a multi-domain representation for few-shot classification. In European Conference on Computer Vision. Springer, 769–786. ↩︎ ↩︎ ↩︎
Thomas Adler, Johannes Brandstetter, Michael Widrich, Andreas Mayr, David Kreil, Michael Kopp, Günter Klambauer, and Sepp Hochreiter. 2020. Cross-domain few-shot learning by representation fusion. arXiv preprint arXiv:2010.06498(2020). ↩︎ ↩︎ ↩︎ ↩︎
Yixiong Zou, Shanghang Zhang, Jianpeng Yu, Yonghong Tian, and José MF Moura. 2021. Revisiting Mid-Level Patterns for Cross-Domain Few-Shot Recognition. In Proceedings of the 29th ACM International Conference on Multimedia. 741–749. ↩︎ ↩︎
Qi Zhang, Yingluo Jiang, and Zhijie Wen. 2022. TACDFSL: Task Adaptive Cross Domain Few-Shot Learning. Symmetry 14, 6 (2022), 1097. ↩︎ ↩︎ ↩︎ ↩︎
Pan Li, Shaogang Gong, Chengjie Wang, and Yanwei Fu. 2022. Ranking Distance Calibration for Cross-Domain Few-Shot Learning. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 9099–9108. ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
Yuqian Fu, Yu Xie, Yanwei Fu, and Yu-Gang Jiang. 2023. Meta Style Adversarial Training for Cross-Domain Few-Shot Learning. https://doi.org/10.48550/ARXIV.2302.09309 ↩︎ ↩︎
Wang Yuan, TianXue Ma, Haichuan Song, Yuan Xie, Zhizhong Zhang, and Lizhuang Ma. 2021. Both Comparison and Induction are Indispensable for Cross-Domain Few-Shot Learning. In 2021 IEEE International Conference on Multimedia and Expo (ICME). IEEE, 1–6. ↩︎ ↩︎ ↩︎ ↩︎
Yuan Ding and Ping Wang. 2021. Reasearch on Cross Domain Few-shot Learning Method Based on Local Feature Association. In 2021 6th International Symposium on Computer and Information Processing Technology (ISCIPT). IEEE, 754–759. ↩︎ ↩︎
Minglei Yuan, Chunhao Cai, Tong Lu, Yirui Wu, Qian Xu, and Shijie Zhou. 2022. A novel forget-update module for few-shot domain generalization. Pattern Recognition 129 (2022), 108704. ↩︎ ↩︎
Pengfang Li, Fang Liu, Licheng Jiao, Lingling Li, Puhua Chen, and Shuo Li. 2023. Task Context Transformer and Gcn for Few-Shot Learning of Cross-Domain. Available at SSRN 4342068 (2023). ↩︎ ↩︎
Jason Yosinski, Jeff Clune, Yoshua Bengio, and Hod Lipson. 2014. How transferable are features in deep neural networks? Advances in neural information processing systems 27 (2014). ↩︎
Kaveh Hassani. 2022. Cross-domain few-shot graph classification. arXiv preprint arXiv:2201.08265 (2022). ↩︎
Linhai Zhuo, Yuqian Fu, Jingjing Chen, Yixin Cao, and Yu-Gang Jiang. 2022. TGDM: Target Guided Dynamic Mixup for Cross-Domain Few-Shot Learning. In Proceedings of the 30th ACM International Conference on Multimedia. 6368–6376. ↩︎ ↩︎ ↩︎ ↩︎
Shuman Peng, Weilian Song, and Martin Ester. 2020. Combining Domain-Specific Meta-Learners in the Parameter Space for Cross-Domain Few-Shot Classification. arXiv preprint arXiv:2011.00179 (2020). ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
Shuzhen Rao, Jun Huang, and Zengming Tang. 2023. Exploiting Style Transfer-based Task Augmentation for Cross-Domain Few-Shot Learning. https://doi.org/10.48550/ARXIV.2301.07927. ↩︎ ↩︎
Hongyu Wang, Eibe Frank, Bernhard Pfahringer, Michael Mayo, and Geoffrey Holmes. 2022. Cross-domain Few-shot Meta-learning Using Stacking. arXiv preprint arXiv:2205.05831 (2022). ↩︎
Yuqian Fu, Yu Xie, Yanwei Fu, Jingjing Chen, and Yu-Gang Jiang. 2022. ME-D2N: Multi-Expert Domain Decompositional Network for Cross-Domain Few-Shot Learning. In Proceedings of the 30th ACM International Conference on Multimedia. 6609–6617. ↩︎ ↩︎ ↩︎ ↩︎
Wang Yuan, Zhizhong Zhang, Cong Wang, Haichuan Song, Yuan Xie, and Lizhuang Ma. 2022. Task-level Self-supervision for Cross-domain Few-shot Learning. (2022). ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
Zhong Ji, Jingwei Ni, Xiyao Liu, and Yanwei Pang. 2023. Teachers cooperation: team-knowledge distillation for multiple cross-domain few-shot learning. Frontiers of Computer Science 17, 2 (2023), 172312. ↩︎ ↩︎
Ji Zhang, Jingkuan Song, Lianli Gao, and Hengtao Shen. 2022. Free-Lunch for Cross-Domain Few-Shot Learning: Style-Aware Episodic Training with Robust Contrastive Learning. In Proceedings of the 30th ACM International Conference on Multimedia. 2586–2594. ↩︎
Oriol Vinyals, Charles Blundell, Timothy Lillicrap, Daan Wierstra, et al. 2016. Matching networks for one shot learning. Advances in neural information processing systems 29 (2016). http://vllab.ucmerced.edu/ym41608/projects/CrossDomainFewShot/filelists/mini_imagenet_full_size.tar.bz2. ↩︎ ↩︎ ↩︎
Mengye Ren, Eleni Triantafillou, Sachin Ravi, Jake Snell, Kevin Swersky, Joshua B Tenenbaum, Hugo Larochelle, and Richard S Zemel. 2018. Meta-learning for semi-supervised few-shot classification. arXiv preprint arXiv:1803.00676 (2018). ↩︎ ↩︎
Grant Van Horn, Oisin Mac Aodha, Yang Song, Yin Cui, Chen Sun, Alex Shepard, Hartwig Adam, Pietro Perona, and Serge Belongie. 2018. The inaturalist species classification and detection dataset. In Proceedings of the IEEE conference on computer vision and pattern recognition. 8769–8778. http://vllab.ucmerced.edu/ym41608/projects/CrossDomainFewShot/filelists/plantae.tar.gz. ↩︎ ↩︎ ↩︎
Bolei Zhou, Agata Lapedriza, Aditya Khosla, Aude Oliva, and Antonio Torralba. 2017. Places: A 10 million image database for scene recognition. IEEE transactions on pattern analysis and machine intelligence 40, 6 (2017), 1452–1464. http://data.csail.mit.edu/places/places365/places365standard_easyformat.tar. ↩︎ ↩︎ ↩︎
Jonathan Krause, Michael Stark, Jia Deng, and Li Fei-Fei. 2013. 3d object representations for fine-grained categorization. In Proceedings of the IEEE international conference on computer vision workshops. 554–561. http://ai.stanford.edu/ ̃jkrause/cars/car_dataset.html. ↩︎ ↩︎ ↩︎
Catherine Wah, Steve Branson, Peter Welinder, Pietro Perona, and Serge Belongie. 2011. The caltech-ucsd birds-200-2011 dataset. (2011). https://www.vision.caltech.edu/datasets/cub_200_2011/. ↩︎ ↩︎ ↩︎
Sharada P Mohanty, David P Hughes, and Marcel Salathé. 2016. Using deep learning for image-based plant disease detection. Frontiers in plant science 7 (2016), 1419. https://www.kaggle.com/datasets/vipoooool/new-plant-diseasesdataset. ↩︎ ↩︎ ↩︎
Patrick Helber, Benjamin Bischke, Andreas Dengel, and Damian Borth. 2019. Eurosat: A novel dataset and deep learning benchmark for land use and land cover classification. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing 12, 7 (2019), 2217–2226. https://github.com/phelber/eurosat. ↩︎ ↩︎ ↩︎
Noel Codella, Veronica Rotemberg, Philipp Tschandl, M Emre Celebi, Stephen Dusza, David Gutman, Brian Helba, Aadi Kalloo, Konstantinos Liopyris, Michael Marchetti, et al . 2019. Skin lesion analysis toward melanoma detection 2018: A challenge hosted by the international skin imaging collaboration (isic). arXiv preprint arXiv:1902.03368 (2019). ↩︎ ↩︎
Philipp Tschandl, Cliff Rosendahl, and Harald Kittler. 2018. The HAM10000 dataset, a large collection of multi-source dermatoscopic images of common pigmented skin lesions. Scientific data 5, 1 (2018), 1–9. https://challenge.isic-archive.com/data/#2018. ↩︎ ↩︎ ↩︎
Xiaosong Wang, Yifan Peng, Le Lu, Zhiyong Lu, Mohammadhadi Bagheri, and Ronald M Summers. 2017. Chestx-ray8: Hospital-scale chest x-ray database and benchmarks on weakly-supervised classification and localization of common thorax diseases. In Proceedings of the IEEE conference on computer vision and pattern recognition. 2097–2106. https://nihcc.app.box.com/v/ChestXray-NIHCC. ↩︎ ↩︎ ↩︎
Brenden Lake, Ruslan Salakhutdinov, Jason Gross, and Joshua Tenenbaum. 2011. One shot learning of simple visual concepts. In Proceedings of the annual meeting of the cognitive science society, Vol. 33. https://github.com/brendenlake/omniglot. ↩︎ ↩︎
Subhransu Maji, Esa Rahtu, Juho Kannala, Matthew Blaschko, and Andrea Vedaldi. 2013. Fine-grained visual classification of aircraft. arXiv preprint arXiv:1306.5151 (2013). https://www.robots.ox.ac.uk/ vgg/data/fgvc-aircraft/. ↩︎ ↩︎
Mircea Cimpoi, Subhransu Maji, Iasonas Kokkinos, Sammy Mohamed, and Andrea Vedaldi. 2014. Describing textures in the wild. In Proceedings of the IEEE conference on computer vision and pattern recognition. 3606–3613. https://www.robots.ox.ac.uk/ vgg/data/dtd/. ↩︎ ↩︎
Jonas Jongejan, Henry Rowley, Takashi Kawashima, Jongmin Kim, and Nick Fox-Gieg. 2016. The quick, draw!-ai experiment. Mount View, CA, accessed Feb 17, 2018 (2016), 4. https://github.com/googlecreativelab/quickdraw-dataset. ↩︎ ↩︎
Brigit Schroeder and Yin Cui. 2018. Fgvcx fungi classification challenge 2018. Available online: github.com/visipedia/fgvcx_fungi_comp (accessed on 14 July 2021) (2018). https://www.kaggle.com/c/fungi-challengefgvc-2018. ↩︎ ↩︎
Maria-Elena Nilsback and Andrew Zisserman. 2008. Automated flower classification over a large number of classes. In 2008 Sixth Indian Conference on Computer Vision, Graphics & Image Processing. IEEE, 722–729. https://www.robots.ox.ac.uk/~vgg/data/flowers/102/index.html. ↩︎ ↩︎
Sebastian Houben, Johannes Stallkamp, Jan Salmen, Marc Schlipsing, and Christian Igel. 2013. Detection of traffic signs in real-world images: The German Traffic Sign Detection Benchmark. In The 2013 international joint conference on neural networks (IJCNN). Ieee, 1–8. https://www.kaggle.com/datasets/meowmeowmeowmeowmeow/gtsrb-germantraffic-sign. ↩︎ ↩︎
Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Dollár, and C Lawrence Zitnick. 2014. Microsoft coco: Common objects in context. In European conference on computer vision. Springer, 740–755. https://cocodataset.org/#download. ↩︎ ↩︎
Xingchao Peng, Qinxun Bai, Xide Xia, Zijun Huang, Kate Saenko, and Bo Wang. 2019. Moment matching for multi-source domain adaptation. In Proceedings of the IEEE/CVF international conference on computer vision. 1406–1415. ↩︎
Hemanth Venkateswara, Jose Eusebio, Shayok Chakraborty, and Sethuraman Panchanathan. 2017. Deep hashing network for unsupervised domain adaptation. In Proceedings of the IEEE conference on computer vision and pattern recognition. 5018–5027. ↩︎
Flood Sung, Yongxin Yang, Li Zhang, Tao Xiang, Philip HS Torr, and Timothy M Hospedales. 2018. Learning to compare: Relation network for few-shot learning. In Proceedings of the IEEE conference on computer vision and pattern recognition. 1199–1208. ↩︎
Jake Snell, Kevin Swersky, and Richard Zemel. 2017. Prototypical networks for few-shot learning. Advances in neural information processing systems 30 (2017). ↩︎
Victor Garcia and Joan Bruna. 2017. Few-shot learning with graph neural networks. arXiv preprint arXiv:1711.04043(2017). ↩︎
Xinhong Ma, Junyu Gao, and Changsheng Xu. 2021. Active universal domain adaptation. In Proceedings of the IEEE/CVF International Conference on Computer Vision. 8968–8977. ↩︎
Jong-Chyi Su, Yi-Hsuan Tsai, Kihyuk Sohn, Buyu Liu, Subhransu Maji, and Manmohan Chandraker. 2020. Active adversarial domain adaptation. In Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision. 739–748. ↩︎ ↩︎
Rinu Boney and Alexander Ilin. 2017. Semi-supervised and active few-shot learning with prototypical networks.arXiv preprint arXiv:1711.10856 (2017). ↩︎ ↩︎
Thomas Müller, Guillermo Pérez-Torró, Angelo Basile, and Marc Franco-Salvador. 2022. Active Few-Shot Learning with FASL. arXiv preprint arXiv:2204.09347 (2022). ↩︎
Yanbin Liu, Juho Lee, Minseop Park, Saehoon Kim, Eunho Yang, Sung Ju Hwang, and Yi Yang. 2018. Learning to propagate labels: Transductive propagation network for few-shot learning. arXiv preprint arXiv:1805.10002 (2018). ↩︎
Limeng Qiao, Yemin Shi, Jia Li, Yaowei Wang, Tiejun Huang, and Yonghong Tian. 2019. Transductive episodic-wise adaptive metric for few-shot learning. In Proceedings of the IEEE/CVF international conference on computer vision. 3603–3612. ↩︎
Anuj Singh and Hadi Jamali-Rad. 2022. Transductive Decoupled Variational Inference for Few-Shot Classification. arXiv preprint arXiv:2208.10559 (2022). ↩︎
Michael Hersche, Geethan Karunaratne, Giovanni Cherubini, Luca Benini, Abu Sebastian, and Abbas Rahimi. 2022. Constrained Few-Shot Class-Incremental Learning. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 9057–9067. ↩︎
Xiaoyu Tao, Xiaopeng Hong, Xinyuan Chang, Songlin Dong, Xing Wei, and Yihong Gong. 2020. Few-Shot Class-Incremental Learning. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). ↩︎ ↩︎
Chi Zhang, Nan Song, Guosheng Lin, Yun Zheng, Pan Pan, and Yinghui Xu. 2021. Few-Shot Incremental Learning With Continually Evolved Classifiers. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 12455–12464. ↩︎ ↩︎
Takeshi Teshima, Issei Sato, and Masashi Sugiyama. 2020. Few-shot domain adaptation by causal mechanism transfer. In International Conference on Machine Learning. PMLR, 9458–9469. ↩︎
Zhongqi Yue, Hanwang Zhang, Qianru Sun, and Xian-Sheng Hua. 2020. Interventional few-shot learning. Advances in neural information processing systems 33 (2020), 2734–2746. ↩︎ ↩︎
Wei Wang, Vincent W Zheng, Han Yu, and Chunyan Miao. 2019. A survey of zero-shot learning: Settings, methods, and applications. ACM Transactions on Intelligent Systems and Technology (TIST) 10, 2 (2019), 1–37. ↩︎
Xuewei Chao and Lixin Zhang. 2021. Few-shot imbalanced classification based on data augmentation. Multimedia Systems (2021), 1–9. ↩︎
Linbin Zhang, Caiguang Zhang, Sinong Quan, Huaxin Xiao, Gangyao Kuang, and Li Liu. 2020. A class imbalance loss for imbalanced object recognition. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing 13 (2020), 2778–2792. ↩︎
Li Li and Zhendong Niu. 2022. Few-Shot Tumor Detection via Feature Reweighting and Knowledge Transferring. In Proceedings of 2021 International Conference on Autonomous Unmanned Systems (ICAUS 2021). Springer, 2606–2615. ↩︎
Yong Feng, Jinglong Chen, Jingsong Xie, Tianci Zhang, Haixin Lv, and Tongyang Pan. 2022. Meta-learning as a promising approach for few-shot cross-domain fault diagnosis: Algorithms, applications, and prospects. Knowledge-Based Systems 235 (2022), 107646. ↩︎ ↩︎
Olusoji Akinrinade, Chunglin Du, Samuel Ajila, and Toluwase A Olowookere. 2022. Deep Learning and Few-Shot Learning in the Detection of Skin Cancer: An Overview. In Proceedings of the Future Technologies Conference (FTC) 2022, Volume 1. Springer, 275–286. ↩︎
Zhiyuan Xu, Kai Niu, Shun Tang, Tianqi Song, Yue Rong, Wei Guo, and Zhiqiang He. 2022. Bone tumor necrosis rate detection in few-shot X-rays based on deep learning. Computerized Medical Imaging and Graphics 102 (2022), 102141. ↩︎
Alper Yilmaz, Omar Javed, and Mubarak Shah. 2006. Object Tracking: A Survey. ACM Comput. Surv. 38, 4 (Dec 2006), 13–es. https://doi.org/10.1145/1177352.1177355. ↩︎
Jinghao Zhou, Bo Li, Peng Wang, Peixia Li, Weihao Gan, Wei Wu, Junjie Yan, and Wanli Ouyang. 2021. Real-Time Visual Object Tracking via Few-Shot Learning. arXiv preprint arXiv:2103.10130 (2021). ↩︎
Chao Liu, Chengjin Qin, Xi Shi, Zengwei Wang, Gang Zhang, and Yunting Han. 2020. TScatNet: An interpretable cross-domain intelligent diagnosis model with antinoise and few-shot learning capability. IEEE Transactions on Instrumentation and Measurement 70 (2020), 1–10. ↩︎
Jon Kleinberg, Jens Ludwig, Sendhil Mullainathan, and Ashesh Rambachan. 2018. Algorithmic fairness. In Aea papers and proceedings, Vol. 108. 22–27. ↩︎
Martin Arjovsky, Léon Bottou, Ishaan Gulrajani, and David Lopez-Paz. 2019. Invariant risk minimization. arXiv preprint arXiv:1907.02893 (2019). ↩︎
Yishay Mansour, Mehryar Mohri, and Afshin Rostamizadeh. 2008. Domain adaptation with multiple sources. Advances in neural information processing systems 21 (2008). ↩︎
Jindong Wang, Cuiling Lan, Chang Liu, Yidong Ouyang, Tao Qin, Wang Lu, Yiqiang Chen, Wenjun Zeng, and Philip Yu. 2022. Generalizing to unseen domains: A survey on domain generalization. IEEE Transactions on Knowledge and Data Engineering (2022). ↩︎