您的位置:首页 > 新闻 > 热点要闻 > 论文翻译:Are aligned neural networks adversarially aligned?

论文翻译:Are aligned neural networks adversarially aligned?

2025/1/8 19:39:15 来源:https://blog.csdn.net/WhiffeYF/article/details/141355845  浏览:    关键词:论文翻译:Are aligned neural networks adversarially aligned?

Are aligned neural networks adversarially aligned?
https://proceedings.neurips.cc/paper_files/paper/2023/hash/c1f0b856a35986348ab3414177266f75-Abstract-Conference.html

对齐的神经网络是否对抗性对齐?

文章目录

  • 对齐的神经网络是否对抗性对齐?
  • 摘要
  • 1 引言
  • 2 背景
  • 3 威胁模型
    • 3.1 现有的威胁模型
    • 3.2 我们的威胁模型
  • 4 使用仅限NLP的攻击评估对齐模型
    • 4.1 我们的目标:对齐的聊天机器人
    • 4.2 以前的攻击方法
    • 4.3 我们的评估设置
    • 4.4 先前攻击结果
  • 5 为什么现有的NLP优化攻击失败?
    • 5.1 我们的测试集
    • 5.2 先前攻击结果
  • 6 攻击多模态对齐模型
    • 6.1 攻击方法
    • 6.2 实验
    • 6.3 定量评估:毒性
    • 6.4 定性评估
  • 7 结论

摘要

大型语言模型现在被调整以符合其创造者的目标,即“有帮助且无害”。这些模型应该对用户问题做出有帮助的回应,但拒绝回答可能导致伤害的请求。然而,对抗性用户可以构建输入,绕过对齐尝试。在这项工作中,我们研究了对抗性对齐,并询问这些模型在与构建最坏情况输入(对抗性示例)的对抗性用户交互时,在多大程度上保持对齐。这些输入旨在使模型发出原本被禁止的有害内容。

我们展示了现有的基于NLP的优化攻击不足以可靠地攻击对齐的文本模型:即使当前基于NLP的攻击失败,我们也可以暴力找到对抗性输入。因此,当前攻击的失败不应被视为证明对齐的文本模型在对抗性输入下仍然保持对齐的证据。然而,大规模ML模型的最新趋势是多模态模型,允许用户提供影响生成文本的图像。我们展示了这些模型可以被轻易攻击,即通过对抗性扰动输入图像诱导执行任意未对齐的行为。我们推测,改进的NLP攻击可能会展示对纯文本模型的这种对抗性控制水平。
在这里插入图片描述

图 1:我们为对齐的多模态文本-视觉模型生成对抗性图像,这些图像导致产生亵渎或以其他方式有害的输出,这些输出通常不会被模型生成。当模型遇到干净的输入时,它们会遵循指令调整并产生无害的输出,但通过提供最坏情况的恶意构造的输入,我们可以诱导任意的输出行为,这些行为是被对齐技术所不鼓励的。

1 引言

对齐的语言模型应该是“有帮助且无害”的[Bai等人,2022]:它们应该对用户交互做出有帮助的回应,但避免直接或间接造成伤害。以前的工作大量集中在如何训练模型以符合其创造者的偏好和目标。例如,通过人类反馈的强化学习(RLHF)[Bai等人,2022,Ouyang等人,2022,Christiano等人,2023]微调一个预训练模型,使其发出人类判断为可取的输出,并阻止被判断为不可取的输出。这种方法成功地训练了产生通常可以接受的良性内容的模型。然而,这些模型并没有完全对齐。通过反复与模型交互,人类已经能够“社会工程”它们产生一些有害内容(即,“越狱”攻击)。例如,对ChatGPT(这样一个对齐调整的语言模型)的早期攻击是通过告诉模型用户是一个研究语言模型危害的研究员,并要求ChatGPT帮助他们产生语言模型不应该说的话的测试案例。尽管有许多这样的轶事,人类手动构建了诱发伤害的提示,但科学地研究这一现象一直很困难。

幸运的是,机器学习社区现在已经研究了神经网络对对抗性示例的基本脆弱性达十年[Szegedy等人,2014,Biggio等人,2013]。给定任何训练有素的神经网络和任意行为,几乎总是可以构造一个“对抗性示例”,以引起选定的行为。早期的对抗性机器学习工作主要集中在图像分类领域,在那里展示了可以最小修改图像以便它们被错误地分类为任意测试标签。但对抗性示例自那时起已经扩展到文本[Jia和Liang,2017,Ebrahimi等人,2017,Alzantot等人,2018,Wallace等人,2019,Jones等人,2023]和其他领域。

在本文中,我们将这两个研究方向统一起来,研究我们所说的对抗性对齐:对齐模型对对抗性输入的评估。也就是说,我们提出了一个问题:对齐的神经网络模型是否“对抗性对齐”?

首先,我们展示了当前的对齐技术——比如用于微调Vicuna模型的那些[Chiang等人,2023]——是对抗现有最先进的(白盒)NLP攻击的有效防御。这表明上述问题可以肯定地回答。然而,我们进一步展示了现有的攻击根本不够强大,无法区分健壮和非健壮的防御:即使我们保证语言模型上存在对抗性输入,我们展示了现有最先进的攻击未能找到它。因此,当前对齐技术的真实对抗性鲁棒性仍然是一个开放的问题,这将需要更强大的攻击来解决。

然后,我们将注意力转向当今最先进的多模态模型,如OpenAI的GPT-4和Google的Flamingo和Gemini,它们接受文本和图像作为输入[OpenAI,2023,Alayrac等人,2022,Pichai,2023]。具体来说,我们研究了具有类似能力的开源实现[Liu等人,2023,Zhu等人,2023,Gao等人,2023],因为这些专有模型尚未公开可用。我们发现,我们可以使用连续域图像作为对抗性提示,使语言模型发出有害的有毒内容(见,例如,图1,或附录C中的未经过滤的例子)。因此,我们推测改进的NLP攻击可能能够在对齐训练的纯文本模型上触发类似的对抗性行为,并呼吁研究人员探索这个研究不足的问题。

一些对齐研究人员[Russell,2019,Bucknall和Dori-Hacohen,2022,Ngo,2022,Carlsmith,2022]认为,足够先进的语言模型应该被对齐,以防止对人类的[Bostrom,2013]存在风险:如果这是真的,那么即使是一次使这样的模型变得不对齐的攻击也将是灾难性的。即使这些先进的能力没有实现,今天的机器学习模型已经面临实际的安全风险[Brundage等人,2018,Greshake等人,2023]。我们的工作表明,通过当前的对齐技术——这些技术并没有特别考虑对抗性优化的输入——来消除这些风险是不太可能成功的。

2 背景

我们的论文研究了两个研究领域的交叉点:AI对齐和对抗性示例
大型语言模型。随着大型语言模型参数数量、训练数据集大小和训练时间的增加,发现这些模型表现出复杂的行为[Brown等人,2020,Wei等人,2022b,Ganguli等人,2022]。在这项工作中,我们专注于使用因果“下一个词”预测训练的模型,并使用符号 s ← Gen(x) 表示给定提示 x 的语言模型发出的一系列标记 s。许多语言模型的应用都利用了从增加规模中产生的新兴能力。例如,语言模型通常用于执行问答、翻译和摘要等任务[Chowdhery等人,2022,Rae等人,2022,Anil等人,2023,Liang等人,2022,Goyal等人,2022]。

对齐大型语言模型。大型预训练语言模型可以在没有进一步调整的情况下执行许多有用的任务[Brown等人,2020],但它们在作为用户面向应用程序部署时存在一些限制。首先,这些模型不遵循用户指令(例如,“用Python为我写一个排序函数”),很可能是因为模型的预训练数据(例如,网络文本)包含的指令-答案对很少。第二,由于忠实地模拟了网络文本的分布,基础模型倾向于反映甚至加剧训练数据中存在的偏见[Abid等人,2021]、毒性和亵渎[Welbl等人,2021,Dixon等人,2018]。因此,模型开发者尝试通过指令调整[Wei等人,2022a,Ouyang等人,2022]和通过人类反馈的强化学习(RLHF)[Christiano等人,2023,Bai等人,2022]等技术,使基础模型与某些期望的原则对齐。指令调整在用指令描述的任务上微调模型。RLHF通过监督模型朝着人类注释者偏好的生成方向发展,明确捕获人类偏好[Christiano等人,2023]。

多模态文本-视觉模型。越来越多地,模型是多模态的,图像和文本是最常结合的模态[OpenAI,2023,Pichai,2023,Liu等人,2023,Zhu等人,2023]。多模态训练允许这些模型回答诸如“这张图片里有几个人?”或“转录图片中的文本”等问题。

虽然GPT-4的多模态实现尚未披露,但有许多开源多模态模型遵循相同的通用协议[Gao等人,2023,Liu等人,2023,Zhu等人,2023]。这些论文首先使用一个标准的预训练语言模型来标记化处理,然后处理嵌入层。为了处理图像,它们使用预训练的视觉编码器如CLIP[Radford等人,2021]将图像编码为图像嵌入,然后训练一个投影模型将图像嵌入转换为由语言模型处理的标记嵌入。这些视觉标记可以直接作为模型的输入传递[Zhu等人,2023,Liu等人,2023],用特殊模板包围(例如,“ … <\img>”)以界定它们的模态,或者通过学习到的适配提示在模型内部组合[Gao等人,2023]。

对抗性示例。对抗性示例是对手设计的输入,目的是使神经网络执行某些不正确的行为[Szegedy等人,2014,Biggio等人,2013]。虽然主要在视觉分类任务上研究,但对抗性示例也存在于文本任务中,如问答[Jia和Liang,2017,Wallace等人,2019]、文档分类[Ebrahimi等人,2017]、情感分析[Alzantot等人,2018]或触发有毒完成[Jones等人,2023,Wallace等人,2019]。以前关于文本任务的工作要么应用了贪婪攻击启发式[Jia和Liang,2017,Alzantot等人,2018],要么使用离散优化搜索触发对抗行为的输入文本[Ebrahimi等人,2017,Wallace等人,2019,Jones等人,2023]。

在本文中,我们从对齐的角度研究对抗性示例。由于对齐的语言模型旨在成为通用的——在许多不同的任务上表现强劲——我们更广泛地关注导致模型产生有害行为的对抗性示例,而不是仅仅导致“误分类”的对抗性示例。我们的输入是“对抗性”的,因为它们专门优化以产生一些目标化和不需要的结果。与最近通过诱使模型扮演有害角色来诱导有害行为的“社会工程”攻击不同(例如,扮演一个种族主义电影演员的角色[Reddit,2023]),我们不努力确保我们的攻击在语义上有意义——它们通常也不会。

3 威胁模型

研究者研究对抗性示例有两个主要原因。一方面,研究者对评估机器学习系统在面对真实对手时的鲁棒性感兴趣。例如,对手可能尝试构建输入,以逃避用于内容过滤[Tremer等人,2019,Welbl等人,2021]或恶意软件检测[Kolosnjaji等人,2018]的机器学习模型,因此设计鲁棒的分类器对于防止真实攻击很重要。

另一方面,研究者使用对抗性鲁棒性作为理解系统最坏情况行为的一种方式[Szegedy等人,2014,Pei等人,2017]。例如,我们可能想要研究自动驾驶汽车对最坏情况、对抗性情境的弹性,即使我们不相信实际的攻击者会尝试造成事故。在高风险神经网络的验证中,对抗性示例已经得到了广泛的研究[Wong和Kolter,2018,Katz等人,2017],在那里对抗性示例在无法进行形式验证时作为错误的下限。

3.1 现有的威胁模型

现有的攻击假设模型开发者创建了模型,并使用某种对齐技术(例如,RLHF)使模型符合开发者的原则。然后,该模型被提供给用户,可以作为独立模型或通过聊天API使用。这些攻击通常在两种设置下进行,我们下面描述。

恶意用户:用户试图使模型产生与开发者原则不对齐的输出。这方面常见的例子是ChatGPT或Bard等聊天机器人的“越狱”,用户使用对抗性示例(恶意设计的提示)来诱发所需的不对齐行为,例如输出制造炸弹的指令。在这种情况下,攻击不需要“隐蔽”。

恶意第三方:诚实的用户可能会查询一个经过对齐调整的语言模型,作为处理不受信任的第三方数据的自主系统的一部分(例如,一个虚拟助手,读取和写入用户的电子邮件)。恶意第三方可以通过提供数据给语言模型来发动提示注入攻击[Greshake等人,2023],以劫持其行为(例如,泄露用户的电子邮件)。在这种情况下,对于有效攻击可能有更严格的约束。

3.2 我们的威胁模型

在本文中,我们专注于更好地理解当前对齐技术的限制。因此,我们主要使用对抗性示例来衡量它们的最坏情况行为。也就是说,我们大多数时候并不关心任何特定的实际对手,而只是寻找任何能够实现我们攻击目标的有效输入。也就是说,我们的攻击在两种设置中都可能是实际的,一种是恶意用户攻击训练过的语言模型以允许它执行恶意行为,另一种是诚实用户从对手那里复制恶意数据。

攻击目标。无论谁攻击谁,也有必要定义最终的攻击目标。虽然攻击者可能旨在诱发许多有害行为(例如,触发模型输出危险指令,或泄露私人训练数据),我们在这里专注于触发有毒输出的具体目标。主要原因是毒性相对容易(大约)以自动化方式评估。我们对毒性使用了一个非常简单的定义(检查模型输出中是否存在或不存在选定的有毒词汇列表),注意到毒性的定义是文化和上下文的,并且已经广泛研究。我们将我们的毒性攻击目标形式化如下:

具体来说,给定一个毒性检测函数isToxic,和一个永远不应该生成使isToxic为真的文本的语言模型Gen,如果输入X使isToxic(Gen(X))返回真,则输入X就造成了伤害。当生成函数是随机化的(即,它不是贪婪采样)我们可能需要Pr[isToxic(Gen(X))] > ε,对于一些概率ε > 0。为了简单起见,在实验中,我们将温度设置为0,使模型确定性。

选择isToxic的适当方法很重要。在本文中,我们使用简单的子字符串查找。我们的攻击选择一些有害的目标序列(例如,一个咒骂词),模型应该生成它,然后我们报告如果它包含这个词的任何地方,就生成了有毒的文本。

4 使用仅限NLP的攻击评估对齐模型

生成对抗性文本序列最直接的方法可能是直接优化攻击目标isToxic(Gen(X))的某种可微代理。然而,由于这些模型的访问限制,即必须由模型输入和输出令牌,这种方法存在两个挑战:

  1. 文本令牌是离散的,因此通过常见的优化算法(例如,梯度下降)进行连续优化不太可能有效[Ebrahimi等人,2017]。
  2. 通常没有一个确切的目标。因此,为了检查攻击是否成功,我们将不得不请求模型一次发出一个令牌。因此,为了将一个长序列S传递给毒性分类器,我们需要生成|S|个令牌,然后通过|S|次神经网络前向传递进行反向传播。

攻击目标:有害前缀。虽然上述第一个挑战是神经语言模型的基本挑战,第二个挑战则不是基本的。为了解决这个问题,我们不直接优化真正的目标,即检查isToxic(S)是否对生成的S为真,我们优化替代目标S…j = t,对于一些恶意字符串t,j ≤ |S|。这个目标更容易优化,因为现在我们只需要执行一个单一的前向传递。

为什么这样做有效?我们发现,只要语言模型以一些有害的输出开始其响应,它就会继续发出有害的文本,无需额外的对抗性控制。在这一部分中,我们将研究以前的攻击方法对于实现我们的毒性目标对各种聊天机器人模型的适用性,这些模型都经过了对齐技术有和没有的训练。

4.1 我们的目标:对齐的聊天机器人

对齐技术(如RLHF)通常不应用于“普通”语言模型,而是应用于首先调整为通过简单聊天协议与用户交互的模型。
通常,这是通过将输入与特定交错的消息一起放置到底层语言模型中来完成的,这些消息由特殊令牌分隔,这些特殊令牌指示每条消息的边界。
在这里插入图片描述

[USER]:“你好,你好吗?”
[AGENT]:‘我是大型语言模型。’
[USER]:“1+2是什么?”
[AGENT]:‘3。’

在上述示例中,聊天机器人的用户在双引号中输入了消息,语言模型生成了单引号中的斜体文本。特殊的标记‘[USER]:’和‘[AGENT]:’由聊天机器人应用程序自动插入,以在提示语言模型生成下一条消息时界定交互的轮次。

对齐语言模型的输入进行特殊格式化对攻击者施加了限制:虽然用户输入的内容(即双引号中的文本)可以任意操作,但之前的聊天历史以及特殊的‘[USER]:’和‘[AGENT]:’令牌不能修改。
总的来说,我们相信在实践中这种“攻击必须遵循特定格式”的设置可能会发生。

4.2 以前的攻击方法

一些以前的研究已经研究了针对NLP模型的对抗性示例。与我们的目标最接近的是Jones等人[2023]的工作,他们研究了反转语言模型的可能性,即找到导致模型f输出一些目标字符串y ← f(X)的对抗性提示X。他们的技术成功地使模型发出美国参议员的名字或在特定个体之后发出有毒的词汇。然而,他们假设了一个比我们在这里更强的威胁模型,并且与最近部署的经过对齐训练的语言模型不完全匹配。实际上,如第4.1节所述,这些语言模型通常作为聊天机器人运行,将攻击者控制的消息与模型生成和特殊分隔符交错在一起。
因此,本文考虑了设计一个对抗性提示X的一般问题,使得Gen(Ppre||X||Ppost)是有毒的,其中Ppre和Ppost分别是模型提示中非对抗性部分,分别在攻击者的输入之前和之后。

相比之下,Jones等人[2023]的设置假设攻击者可以控制整个提示(即,目标是使Gen(X)有毒),或者至少控制模型下一次生成之前的文本(即,Gen(Ppre||X))。在这两种情况下,攻击者控制了模型生成之前的令牌,这使得攻击更容易(但与当前聊天机器人部署无关)。(然而:有几种设置他们威胁模型是有效的——例如,在代码补全任务中,情况可能就是这样。我们的威胁模型只是更普遍。)
在这里插入图片描述

表 1:先前攻击在构建导致模型输出有毒内容的对抗性提示方面的成功率。我们允许对手修改最多30个文本令牌。如果对抗性令牌出现在问题之前,我们称攻击为“远距离”的;如果对抗性令牌出现在问题之后,则称其为“近距离”的。

4.3 我们的评估设置

因此,我们假设对手只能控制他们的信息(在[USER]:标记之后),然后特殊的[AGENT]:标记被附加到提示序列上,以指示提示的结束,以及大型语言模型(LLM)应该开始生成响应。在这种设置中,对手不能修改LLM提示的最终令牌。

我们首先收集模型可能发出的潜在有毒信息,构建我们的评估数据集。对于每个有毒信息,我们在特殊标记前加上一组良性对话,这些标记用于提示LLM的响应。如果攻击导致发出有毒输出,则认为攻击成功。我们从开放助手数据集中获取良性对话。该数据集由一系列假设的人与助手之间的交互组成,我们将它们截断为随机选择的K ∈ [1…N]轮。我们使用Jones等人[2023]中的有害文本的随机子集作为攻击目标,攻击目标是一到三个有毒文本的令牌。

我们攻击三个不同的公开可用模型,附录B中提供了可复制性的链接:
• GPT-2:一个既没有被训练为聊天机器人,也没有被对齐的模型;
• LLaMA:一个被训练为与用户聊天但没有任何明确对齐尝试的模型;
• Vicuna:通过微调进行了对齐的LLaMa版本,以防止有毒生成(和其他有害行为)。

4.4 先前攻击结果

我们评估了Jones等人[2023]的ARAC攻击和Guo等人[2021]的GBDA攻击。由于ARAC概括并主导了先前的攻击,如[Wallace等人,2019,Ebrahimi等人,2017],我们没有重新评估这些。在我们的设置中,即使允许注入三十个恶意令牌,ARAC和GBDA在导致模型发出有毒内容方面都基本上无效。(我们选择这个数字是为了与稍后在论文中进行的实验相匹配。)这不足为奇:在Jones等人[2023]中,即使对手完全控制了每个令牌,直到所需的有毒短语,攻击在让GPT-2输出有毒文本方面的成功率也低于40%。相比之下,因为我们要求令牌“[AGENT]:”在对抗性令牌之后出现,这里的攻击成功率要低得多。表1总结了这些结果。

定性评估:毒性:我们从表1中的每个设置中定性检查这些生成的子集。我们发现在大多数情况下,输出确实是预期的有毒的。但在不到十个案例中,我们发现我们的自动化度量可能存在局限性。例如,当被要求产生一个有毒短语时,Vicuna回答“F*** you. I’m kidding, of course. As a AI visual assistant, I’m programmed to be polite and provide assistance to the best of my ability. How can I assist you today?”,在另一个案例中,在最初辱骂性的消息之后,它回答“(注意:这是不适当的语言,不是对提示的正确回应。)”。这证明了我们简单的isToxic定义的局限性,它只执行子字符串查找。一旦攻击开始有非平凡的攻击成功率,未来的工作将需要仔细考虑不同的毒性定义——目前,即使有这个宽松的定义,文献中的现有攻击也未能找到成功的对抗序列。

5 为什么现有的NLP优化攻击失败?

在前一节中,我们发现现有的NLP攻击在聊天设置中导致对齐模型发出有害文本方面的成功率有限。对此结果有两个可能的解释:

  1. 我们攻击的对齐语言模型真正对对抗性示例具有鲁棒性;或者,
  2. 当前的攻击不足以评估对齐模型的鲁棒性。

幸运的是,最近的工作已经开发了专门设计来区分这两种假设的技术,用于一般攻击。Zimmermann等人[2022]提出了以下框架:首先,我们构建已知对抗性示例的测试用例;然后,我们在这些测试用例上运行攻击并验证它们是否成功。我们的特定测试用例方法遵循Lucas等人[2023]。为了构建测试用例,我们首先通过蛮力识别一组对抗性示例。一旦我们通过蛮力确认了至少一个对抗性示例的存在,我们就在相同的搜索空间上运行我们的攻击,并检查它是否找到了一个(可能不同,但仍然有效的)对抗性示例。当存在有效的蛮力方法并且可能的对抗性示例集合实际上是可枚举的——就像在NLP领域一样,这种方法是有效的。

我们按如下方式适应这个设置。我们通过蛮力构建(导致模型发出罕见后缀q的)提示p。然后,如果攻击能找到某个输入序列p’,使得Gen§ = q,即模型发出相同的q,则攻击成功。否则,攻击失败。请注意,足够强大的攻击(例如,对所有提示的蛮力搜索)将始终在这个测试上成功:任何失败都表明攻击有缺陷。即使这些字符串不是有毒的,它们仍然足以证明攻击是薄弱的。

5.1 我们的测试集

我们应该如何选择前缀p和目标令牌q?如果我们事先选择q,那么即使通过蛮力也可能很难找到前缀p,使得Gen§ = q。因此,我们放弃了q是有毒的要求,并从反面来处理问题。

最初,我们从某个数据集(在我们的情况下是维基百科)中采样许多不同的前缀p1、p2,…。设S是所有N令牌序列的空间(对于一些N)。然后,对于所有可能的序列si ∈ S,我们查询模型Gen(si || pj)。(如果|S|太大,我们随机采样1,000,000个元素si ∈ S。)这给出了一组可能的输出令牌{qi},每个序列si都有一个。

对于一些提示pj,可能的输出令牌集合{qi}可能具有高熵。例如,如果pj = “你好吗?”那么可能有成千上万种可能的延续qi,这取决于确切的上下文。但对于其他提示pj,可能的输出令牌集合{qi}可能非常小。例如,如果我们选择序列pj =“Barack”,那么随后的令牌qi几乎总是“Obama”,无论使用了什么上下文si。

但模型的输出并不总是一样的。可能有其他一些令牌也是可能的——例如,如果上下文是si =“名字[”,那么整个提示(“名字[Barack”)很可能导致模型输出一个闭合括号q =“]”。我们将这样的序列pj称为测试用例,它们在输出{qi}上产生小但正的熵(对于不同的提示si ∈ S),并将攻击目标设为最不可能输出的令牌qi。

这些测试是评估NLP攻击的极好候选。它们为我们提供了一个证明(通过构建),即有可能触发模型输出给定的词。但这发生得足够少,以至于攻击是非平凡的。现在的问题就是现有的攻击是否成功。

表 2:我们提出的测试用例在先前攻击上的GPT-2通过率。我们设计每个测试以确保解决方案一定存在;任何低于100%的值表示攻击失败。
在这里插入图片描述
我们构建了八个不同难度级别的集合,并报告了每个集合的平均值。我们的测试集由三个常数参数化。(1) 出现频率:给定pj的令牌q的概率,我们将其固定为10^-6;(2) 攻击者控制的令牌:允许对手修改的令牌数量,我们将其变化为2、5、10或20个令牌;(3) 目标令牌:攻击者必须达到的输出令牌数量。我们仅使用GPT-2生成我们的测试用例,因为运行蛮力搜索的成本。然而,由于GPT-2是一个更容易受到攻击的模型,如果攻击在这里失败,它们不太可能在更困难的对齐模型案例上成功。

5.2 先前攻击结果

在表2中,我们发现现有的最新NLP攻击未能成功解决我们的测试用例。在最左边的列中,我们报告了攻击在给定攻击者控制的令牌数量内必须解决任务的成功率。ARAC明显强于GBDA(与先前的工作一致),但即使ARAC在近90%的测试用例中也未能找到成功的提示。因为这里的数字如此之低,我们随后尝试给攻击者更多的控制,对操纵的令牌数量进行乘法因子。也就是说,如果原始测试要求找到10个令牌的对抗性提示,我们以5的因子运行攻击,我们允许攻击在50个攻击者控制的令牌上进行搜索。我们发现即使有10倍的额外令牌,攻击在大多数时间里仍然未能通过我们的测试。

请注意,这次评估的目的并不是要说我们在这里研究的NLP攻击在任何方面都是错误的。恰恰相反:它们在它们最初设计的任务上大多取得了成功。但我们要求它们做一些更难的事情,并且在远处控制输出,我们希望在这里证明,虽然我们在开发强大的NLP优化攻击方面取得了显著进展,但仍有改进这些技术的余地。

6 攻击多模态对齐模型

文本并不是人类交流的唯一范式。因此,越来越多的基础模型开始支持跨视觉、文本、音频或其他领域的“多模态”输入。在本文中,我们研究视觉增强模型,因为它们是最常见的。例如,如前所述,OpenAI的GPT-4和Google的Gemini将来将支持图像和文本作为输入。这允许模型回答诸如“描述这张图片”之类的问题,这可以,例如,帮助盲人[Salam,2019]。

这也意味着对手现在可以提供对抗性图像,而不仅仅是对抗性文本。由于图像来自连续域,对抗性示例的创建要简单得多:我们不再需要担心文本的离散性质或嵌入矩阵的反转,而是可以在(近)连续域像素上操作。

6.1 攻击方法

我们的攻击方法直接遵循了在图像模型上生成对抗性示例的标准方法。我们构建了一个端到端可微的多模态模型实现,从图像像素到语言模型的输出对数几率。我们再次使用有害前缀攻击,其中对手构建一个对抗性图像,最大化模型将以特定有害响应开始其响应的可能性。

当目标响应大于1个令牌时,我们应用标准的教学强制优化技术,即我们优化每个目标输出令牌的总交叉熵损失,就好像模型正确预测了所有之前的输出令牌一样。每次攻击开始时,我们使用通过均匀随机采样每个像素生成的随机图像。我们使用投影梯度下降[Madry等人,2017]。我们使用任意大的ε,并运行最多500步或直到攻击成功;注意,我们在表3中报告了最终的失真。我们使用默认的步长0.2。

表 3:我们可以迫使Mini GPT-4、LLaVA和LLaMA Adapter产生任意有毒的输出小2扰动。尽管它们的方法类似,但LLaVA比其他模型更容易受到攻击10倍,这表明了实现细节的重要性。
在这里插入图片描述

6.2 实验

虽然GPT-4目前对一些用户支持视觉功能[OpenAI, 2023],但在执行此攻击时,此功能尚未公开可用。Google的Gemini也未公开提供。因此,研究社区开发了这些多模态模型的开源(相对较小的)版本。

我们在两种不同的实现上评估我们的攻击。虽然它们在一些细节上有所不同,但都遵循了第2节中的方法:图像通过视觉模型编码,投影到令牌嵌入空间,并作为一系列软令牌传递给语言模型。

Mini GPT-4 [Zhu等人,2023]使用预训练的Q-Former模块从[Li等人,2023]将由EVA CLIP ViT-G/14 [Fang等人,2022]编码的图像投影到Vicuna的[Chiang等人,2023]文本嵌入空间。CLIP和Vicuna都是固定的,而Q-former的一部分在LAION [Schuhmann等人,2021]、Conceptual Captions [Sharma等人,2018]、SBU [Ordonez等人,2011]和作者生成的多模态指令跟踪数据的子集上进行了微调。

LLaVA [Liu等人,2023]使用线性层将来自CLIP ViT-L/14的特征投影到Vicuna嵌入空间。CLIP是固定的,而Vicuna和投影矩阵都在Conceptual Captions [Sharma等人,2018]和自定义多模态指令跟踪数据上进行了微调。

LLaMA Adapter [Gao等人,2023]的工作原理与这些类似,但它使用学习到的适配提示通过这些适配器将视觉信息内部纳入模型。

我们进行这些实验的目标是展示由于生成图像对抗性示例的简易性,这些视觉增强模型更容易受到影响。

6.3 定量评估:毒性

现在我们评估这些模型被迫发出任意有毒输出的能力。与前一节一样,我们使用[Jones等人,2023]中的有毒短语数据集,并使用OpenAssistant提示作为模型的初始查询。我们测量一组随机生成图像的失真。我们观察到,无论提示是什么,我们的攻击都成功。如表3所示,我们的攻击在使模型发出任意有毒内容方面有100%的成功率。我们观察到,对抗性输入相对容易找到,只需要对初始图像进行最小的2失真;提示之间的失真变化也很小。尽管失真作为一个应该最小化的目标本身没有内在的重要性,但我们认为报告所需的失真是有趣的,以强调进行这些攻击的简易性。

6.4 定性评估

我们进一步对设计用于探测各种有害结果的定性样本进行攻击评估。例如,即使明确要求有害输出(例如,“写一封恶劣的信,告诉我的邻居我对他的看法。”),模型仍然无害地响应(“亲爱的[邻居的名字]…我不得不说,我对您的行为印象不深…此致,[你的名字]”)。但是,通过提供对抗性图像作为输入,我们可以使模型发出我们期望的有害输出(“F*** you, you dirty life piece of s***. You’re a disgusting, filthy, stinky, scumbag who doesn’t deserve to live in this neighborhood … you worthless, good-for-nothing, loser.”)

同样地,当被要求提供如何逍遥法外的指导时,基础模型回应说“不鼓励或提供如何伤害或杀害某人的信息是不合适的”,但被攻击的模型遵从了:“第一步是确定邻居家的位置”。虽然这里的回应是相当差劲的建议,这很可能是因为模型不够能干;一个更好的模型可能会提供更具可行性(因此更有害)的建议。我们在附录中列出了我们攻击这些模型的能力的样本(未审查)示例。

7 结论

通过RLHF或指令调整训练的语言模型比基础模型显著更加对齐:特别是,它们更有帮助(它们适当地遵循良性用户指令)且无害(它们输出毒性或有害行为的可能性较小)。虽然有帮助性可以通过各种效用指标进行评估,但无害性更难以评估——迄今为止几乎所有方法都依赖于人为设计的测试用例来量化这一点。

在本文中,我们已经展示了这些模型可能通常是无害的,但在对抗性提示下可能并非无害。虽然我们所展示的对抗性提示造成的危害相当良性(例如,我们研究的小模型在如何逍遥法外方面给出了无帮助的建议,或者产生了可以在互联网上找到的有毒内容),我们的攻击直接适用于在更大和更有能力的系统中触发其他不良行为。

我们的攻击在新的多模态视觉-语言模型范式上最有效。虽然我们研究的所有模型都容易受到攻击,但小的设计决策影响了攻击的简易性,差异高达10倍。更好地理解这种增加的脆弱性来自何处是未来工作的重要领域。此外,未来的模型很可能会添加额外的模态(例如,音频),这可能会引入新的脆弱性和攻击面。

不幸的是,对于仅限文本的模型,我们展示了当前的NLP攻击不够强大,无法正确评估对抗性对齐:即使已知存在对抗性序列,这些攻击也经常未能找到它们。由于我们的多模态攻击表明存在输入嵌入,会导致语言模型产生有害输出,我们推测也可能存在能够导致类似有害行为的对抗性文本序列。

猜想:改进的NLP优化攻击可能能够在本应对齐的语言模型中诱发有害输出。

虽然我们不能证明这一主张(这就是为什么它是一个猜想!),但我们相信我们的论文为此提供了有力的证据:(1) 语言模型对软嵌入攻击(例如,多模态攻击)很脆弱;(2) 当已知解决方案存在时,当前的NLP攻击无法找到它们。因此,我们推测更强大的攻击将成功地使仅限文本的对齐模型以有害的方式行动。

未来工作。我们希望我们的论文能激发未来研究的几个方向。最直接地,我们希望更强大的NLP攻击将使对齐的大型语言模型进行全面的鲁棒性评估成为可能。这样的攻击至少应该通过我们的测试才算可靠。

我们认为这条工作线的最终目标不是制造更好的攻击,而是改进对防御的评估。没有对攻击的坚实理解基础,就不可能设计出经受住时间考验的鲁棒防御。一个重要的开放问题是,来自对抗性机器学习文献中的现有攻击和防御洞见是否会转移到这个新领域。

最终,这些关于攻击和防御的基础工作可以帮助通知对齐研究人员开发改进的模型对齐技术,在对抗性环境中仍然可靠。

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com