系列文章目录
前言
近年来,大型语言模型(LLM)的集成彻底改变了机器人领域,使机器人能够以人类熟练程度进行交流、理解和推理。本文探讨了 LLM 对机器人的多方面影响,并针对在不同领域利用这些模型的关键挑战和机遇进行了研究。通过将 LLM 应用程序分类并分析核心机器人元素——通信、感知、规划和控制中的 LLM 应用程序,我们旨在为寻求将 LLM 集成到其机器人系统的研究人员提供可操作的见解。我们的调查重点是 GPT-3.5 之后开发的 LLM,在文本模态中主要考虑的同时也考虑到感知和控制方面的多模态方法。我们提供了全面的提示工程指南和示例,帮助初学者访问基于 LLM 的机器人解决方案。通过教程级别的例子和结构化的提示构建,我们展示了如何无缝地将 LLM 指导增强功能整合到机器人应用程序中。这项调查作为研究人员导航不断演变的 LLM 驱动的机器人景观的地图,提供了一个全面概述和实用指导,用于在机器人开发中利用语言模型的力量。
一、介绍
在过去十年中,我们见证了机器人领域在应用语言模型 (LMs) 方面取得了显著进展。这一进步不仅包括人类般的交流能力,还包括机器人的理解和推理能力,从而显着提高了它们在各种任务中的有效性,从家务到工业操作 [52,105]。在工作初期阶段的成功源于统计模型分析和预测语言表达中的单词。这些模型使机器人能够解释人类命令[110,121]、理解上下文[3,5]、代表世界[50]并与人类互动[135],尽管其理解深度有限。然后,采用自注意力机制的Transformer架构[141],特别是预训练的语言模型(如BERT)[26]提高了捕捉复杂模式的能力,并通过针对特定任务微调模型来提高能力。然而,这些模型的表现往往取决于有限的数据集,限制了它们对更深层次语境的理解能力和泛化到不同场景的能力。
随着大型语言模型(LLM)的不断发展,基于语言的机器人在信息检索、推理任务、环境适应性、连续学习和改进等方面带来了创新变化。这些 LLM 具有庞大的参数规模,并且通过互联网规模的数据集进行训练,能够实现零样本或少量样本的学习能力,无需额外更新参数。这些显著的进步源于新兴技术的发展。gent 能力,定义为“在小模型中不存在但在大模型中出现的能力”(文献 [148])。这些能力显著增强了机器人对开放式指令的理解、推断和响应性能,并利用了广泛的常识知识。此外,提示工程技术使LLMs能够通过自由形式的语言描述或交互式对话来整合更丰富的上下文信息,从而促进通用推理[149]。引入的in-context学习能力使得LLMs可以根据提供的指令或演示生成预期格式的输出,例如JSON、YAML 或PDDL,甚至代码[42, 86]。最近的LLM,如GPT-4,进一步扩展了其功能,通过集成外部机器人工具,如规划器或翻译器等[89]。
尽管大型语言模型具有多种能力,但其利用面临几个挑战。首先,大型语言模型经常生成不准确或出乎意料的响应。由于机器人执行的安全性是部署中最重要因素之一,基于大型语言模型的机器人应用需要过滤和校正机制以确保安全。其次,诸如上下文学习等新兴能力尚不可预测且不稳定 [19] 。即使是输入文本的小幅更改也可能导致无法预料的变化。第三,精心设计的提示使机器人能够有效地利用大型语言模型的能力,但是缺乏支持关键系统组件的系统的指导方针,阻碍了无缝集成 [35、54 和 164]。因此,我们需要在机器人中研究面向部件的大规模语言模型参与,以便了解限制性和安全性问题。
目前,各种调查已经开始探索LLM和机器人之间的交集 [142, 164] ,主要集中在基于LLM的机器人应用或交互维度。然而,在提供对关键元素(包括通信、感知、规划和控制)的整体审查以及整合LLM方面的可操作见解方面仍然存在差距。此外,研究人员还探索了预训练的大容量模型领域,称为基础模型,寻求多模态变压器模型的一般化能力[35,54] 。但是,这个广阔的领域涵盖了广泛的机器人技术和多样化的研究方法,使得新兴的研究人员错过了深入的回顾和指南。
本文如图1所示,旨在分类和分析大型语言模型(LLMs)如何增强机器人系统的核心要素以及我们如何引导新兴研究人员在每个领域中整合LLM以开发智能机器人。本文结构如下:
· Q1:LLMs如何在每个机器人领域中被利用?
·Q2:研究人员如何克服LLM的集成限制?
·Q3:每个领域需要产生最小功能所需的最基本提示结构是什么?
为了回答这些问题,我们重点关注在GPT-3.5引入之后开发的LLMs。 我们主要考虑文本模态性,但也审查感知和控制领域的多模态性。 但是,在深入审查时,我们将我们的调查限制为LLM而不是基础模型。
此外,我们还提供了全面的提示工程指南和示例,旨在使初学者能够访问基于LLM的机器人解决方案。我们的教程级示例说明了如何通过引入四种类型的示例提示来增强或替换基本功能:用于交互式定位的对话提示、用于场景图生成的指令提示、用于少量规划的计划提示以及用于奖励生成的代码生成提示。通过提供有关提示构建规则和技巧,我们概述了生成所需格式输出所需的精心设计的提示的过程。这些原则确保在不调整参数的情况下有效地对机器人应用进行LLM引导改进。
本文的其余部分组织如下。第2节概述了机器人领域中LMs和LLMs的历史背景。第3节回顾了如何通过语言理解和生成使机器人实现通信,以增强语言模型的能力。第4节调查了语言模型感知各种传感器模态并促进感测行为的方式。第5节和第6节分别组织基于语言模型的规划与控制研究。在第7节中,我们提供了一种全面的提示工程指南作为将语言模型集成到机器人中的起点。最后,在第8节中总结了这项综述。
二、初步
2.1 机器人语言模型
在预训练语言模型(pre-trained language model,简称“LLM”)出现之前,早期的研究主要集中在序列数据处理上,并使用基于循环神经网络的模型 [23、46]。这些模型通常将语言命令转换为一系列动作[6、99]或正式语言[40],利用循环神经网络的序列到序列建模能力。另一方面,研究人员还使用循环神经网络作为语言编码器,将文本输入转化为可以映射到视觉特征以进行指代对象识别的语言特征[121、125]。然而,循环神经网络中的长期依赖问题限制了应用范围。然后,Transformer架构 -
tecture [141] 是一种支持长距离理解的非顺序模型,它使新的机器人任务成为可能,例如视觉和语言导航 [14、16]。
在预训练语言模型 (pre-trained language model,简称 P-LM) 出现之前的研究也表明,在小规模、任务特定的数据集上进行训练的先前方法无法实现改进的应用性能。基于变压器的模型和自监督学习技术(如掩码语言建模)推动了互联网规模的预先训练模型的发展,包括 BERT [26] 和 GPT-2 [115] 等。这些模型对语言具有广泛的理解能力,从而实现了以下两个方面:(1) 改进的一般化能力和(2) 对具体机器人任务的微调[74, 75, 124]。此外,研究人员还开发出了能够处理大规模数据集的语言模型。
处理多模态信息 [116],因为机器人应用通常需要访问多种多样的多模态性,例如自然语言和视觉,以与用户和环境进行交互。[76、126]
2.2 大型语言模型在机器人学中的应用
最近的LLM发展,如GPT-3 [8]、GPT-4 [107]、LLaMA [137]、Llama 2 [138] 和Gemini [2] ,在理解、上下文意识、泛化能力和知识丰富性方面显示出显著改进,并超越了早期的语言模型。这些改进来自对大规模数据集(数十亿个参数)进行训练,使它们能够捕获复杂的模式。此外,先进的学习策略,例如基于人类反馈的强化学习,已被开发出来以将LLMs的行为与人类价值观或偏好保持一致[108] 。然而,使用大型参数进行学习需要昂贵的计算成本来更新整个模型。为了解决这个问题,研究人员已经开发出针对机器人任务的参数高效的微调方法 (例如适配器 [49]和LoRA [51])。例如,LLM-POP [132] 使用适配器对其模型进行微调,该适配器是插入到每个LLM层中的小型可训练网络,在交互规划场景中具有互动计划功能。
此外,基于上下文学习的提示工程 (ICL)[8] 在无需额外训练的情况下从提示中学习方面取得了显著进步。其有效性取决于提示的设计和质量,可以通过详细的任务描述、少量示例或模型友好的格式(例如,“###”作为停止符号)来增强。另外,链式推理(CoT) 提示方法[149] 是另一种新兴的方法,在提示中包含中间推理步骤。CoT 方法显着增强了大型语言模型(LLM) 的推理和问题解决能力,并成为机器人应用中的主导技术之一 [86, 128, 163] 。
三、交流
我们调查了利用LLM来促进机器人中的人类交流,使机器人能够有效地与人类和其他机器人代理进行交互。我们将通信能力分为两个主要领域:(1)语言理解以及 (2) 语言生成。我们在图 1 中显示了详细的分类,并在绿色单元格中引用相关研究。
3.1 语言理解
我们回顾了语言理解能力,讨论了如何通过解释和扎根过程处理LLMs对语言输入的变异性与模糊性。
解释将自然语言输入转换为机器人更容易处理的语义表示。这些表示包括线性时间逻辑(LTL)等正式语言,以及规划领域定义语言 (PDDL) 等编程语言。为了帮助解释自由形式句子,研究人员利用了 LLM 的 ICL 能力,在提示中提供指导和演示 [56, 76]。尽管如此,LLMs 在将输入翻译成正式语言时往往无法满足语法或捕获精确的语义。为此,研究人员建议简化词汇表或使用与特定领域无关的数据对 LLM 进行微调 [93, 160]。例如,Lang2LTL 将导航命令中的地标引用表达式转换为 LTL 符号 [91]。进一步改进通常涉及使用人类反馈和语法检查器来纠正生成的正式语言翻译 [18, 42]。例如,Guan 等人提出了一种基于人的翻译框架,在其中人类领域的专家反复审查 PDDL 描述并以自然语言提供反馈 [42]。
接地是另一个将语言表达映射到机器人可识别的行为或对象的过程。早期的研究确定了最大化LLM输出的词嵌入与真实世界目标之间的余弦相似度的映射 [58,76,93,117] 。后续研究利用LLMs 的常识知识来捕获物体文本标签上下文以改善接地[41,118]。例如,ConceptGraphs[41]表明如何根据大小和重量假设,将“一些用来做纸镇的东西”接地到一个陶瓷花瓶上。然而,接地精度取决于世界模型的详细程度和准确性。为此,研究人员通过直接关联语言输入与感官感知或者使LLMs 能够与环境交互[158,168] 或者人类互动[61,109,120] 来增强LLMs 多模态能力,以便更好地收集语境信息。例如,LLM-Grounder[158] 是一种三维视觉接地方法,它主动使用诸如LERF[72] 和OpenScene[111] 等视觉工具来收集环境信息。
3.2 语言生成
语言生成是指人类的书面或口头语言,它反映了交际意图。我们根据其交流功能将语言生成分为任务依赖型和独立型两种类型。
阳离子意图,偏离了常规的自然语言生成 (NLG) 类别文本到文本和数据到文本 [30], 因为我们专注于研究中的交流目的。
任务依赖的语言生成侧重于产生具有特定功能目标的语句,这些语句可以是陈述性的或命令式的。为了生成开放式的陈述性声明,研究人员通常会向LLMs提供上下文信息 [20、62、96] 。然而,LLMs往往会产生重复且事实不一致的输出,这受限于对先前对话和常识知识的依赖[20、83]。因此,研究人员通过辅助知识源来扩展可用信息范围[4、21、157]。例如,Axelsson 和 Skantze 使用知识图谱增强了一个机器人博物馆导游系统[4]。此外,研究人员还指示LLM根据人类协助请求生成指令以澄清歧义[25、61]。为提高推理步骤,概率模型被引入评估情况的不确定性[109、120]。例如,KnowNo [120] 和 CLARA [109] 交互系统分别评估信心度和语义差异,并在这些指标表明存在显著不确定时触发生成。
任务无关的语言生成涉及通过嵌入非语言提示(例如,非语言声音、手势和面部表情)来增强参与度和同理心的表达式设计。例如,Khoo等人开发了一个使用转录音频和视觉线索产生同理心响应的对话机器人 [73] 。然而,与LLM 的对话仍然肤浅,因为知识有限且对话历史记录不足 [65] 。为了克服这一问题,研究人员将记忆模块集成到LLMs中,使它们能够以结构化格式提取并存储会话中的信息[22, 63, 65, 162]。例如,Irfan 等人设计的伴侣机器人根据用户交互不断更新机器人的记忆,从而生成个性化对话 [65] 。
四、感知
感知在使机器人做出决策、规划行动和导航真实世界方面起着至关重要的作用。基于大型语言模型的机器人感知领域主要集中在两个方面:感测模态和行为。本节介绍了大型语言模型如何将语言与传感器模态集成到机器人中,以及代理通过被动和主动感知行为获取环境信息的方式。图1展示了相关研究的详细分类,并用粉色单元格引用了这些研究。
4.1 感知模态
研究人员通过集成多模态语言模型显著提高了机器人的理解和泛化能力。我们对主要感测模态进行了分类,包括视觉、听觉和触觉模态,并回顾了利用多模态LLM进行感知任务的研究。
视觉感知任务涉及对图像或点云等视觉信息的解释。预训练的视觉语言模型(VLM)如CLIP [116] 和Instruct-BLIP [82] 允许LLM 基础机器人直接利用图像源。例如,最近基于LLM 的操纵系统,如TidyBot [152]和RoCo [96] 使用从CLIP 或OWL-ViT [100]生成的图像推断对象标签或场景描述。此外,研究人员通过在下游任务中应用VLM 来扩展推理能力,这些任务包括图像标注[41]和视觉问答 (VQA) [37、78、103] 。下游任务使LLMs 能够随后请求VLM 推理物体属性(例如材料、易碎性)[37] 或为抓取定位物体部分[103]。然而,图像往往难以获取空间几何信息。
此外,黄等人将视觉语言特征(即LSeg [81])与三维点云关联以重建三维地图[56]。进一步地,Jatavallabhula等人通过引入VLM的精细粒度和像素对齐特征来改进这种关联机制,并使用RGB-D图像进行增强[66]。然而,与3D信息的关联往往需要大量的内存,限制了大型场景的可扩展性[56、66、158]。作为替代方案,研究人员通常会将几何和语义特征与三维场景图关联起来[41]。
听觉感知涉及声音的解释。基于LLM的研究通常会利用预训练音频语言模型(ALMs),如AudioCLIP [43] 和Wav2CLIP [151],将它们与视觉数据结合起来以增强环境或上下文理解[55, 94, 123, 163] 。例如,AVLMaps [55] ,一种具有跨模态信息的三维空间地图构建器,将音频、视觉和语言信号集成到三维地图中,使代理能够使用多模态目标导航,例如“在冰箱图像和玻璃破碎的声音之间移动”。此外,REFLECT [94] 是一个机器人失败总结框架,它将诸如RGB-D 图像、音频剪辑和机器人状态等多感官观察转化为文本描述来增强基于LLM 的故障推理。
触觉感知涉及接触信息的解释。研究人员引入了交互式集成预定义高级描述中获得的触觉特征或基于CLIP的手动图像特征的多模态感知模块,以实现对触觉互动的理解。例如,MultiPLY [48] 是一种多感官LLM
将触觉感官读数转换为热图,由CLIP编码。然后通过引入一个线性层的触觉投影仪,模型映射了热图信息到LLMs的特征空间。
4.2 感知行为
根据感知行为的类型,我们将这一部分分解为被动和主动感知。
被动感知是指在不主动寻求的情况下收集感官信息的过程。尽管其局限性,被动传感已在基于LLM的机器人研究中广泛用于各种任务:对象识别 [37、53、152]、姿态估计 [103、156]、场景重建 [41、59、122、122] 和对象定位 [66、144、158] 。例如,TidyBot [152] 从上方视图检测最近的对象,并随后使用由机器人摄像头捕获的更近的视图来识别其对象类别。然而,由于感知的被动性质限制了当信息未观察到或不可用时执行任务的能力(例如,未知区域和重量)。
另一方面,主动感知是指通过采取额外行动来收集感官信息的有意识过程。主动的信息获取可以通过感官观察或请求用户反馈来获得新的信息,从而增强对环境的理解 [78, 129] 。例如,LLM-Planner[129] 生成诸如“打开冰箱”之类的搜索动作以定位不可见的对象。最近的研究还关注收集感官数据以更好地了解物体的物理属性 [48, 132, 168] 。然而,LLMs 往往会生成不准确或捏造的信息,称为幻觉。为解决这个问题,Dai 等人引入了一个个性化对话代理,旨在询问不确定的信息 [25] 。
五、规划
规划涉及组织行动以解决给定的问题,通常通过生成一系列高级符号操作(即任务规划)来实现,并使用低级运动控制器执行它们。本节研究了基于LLM的规划研究如何通过将其分类为三个关键研究领域来应对规划领域的限制: (1)任务规划、 (2) 运动规划和 (3) 任务与运动规划(TAMP) 。图 1 显示了详细的分类及其相关的规划研究,这些研究在紫色单元格中引用。
5.1 任务计划
基于LLM的任务规划器能够生成不需要严格符号定义的计划,而传统的任务规划器则需要预先定义操作符,并且使用领域知识来描述可用的操作和约束。在这个领域中,大多数规划者采用静态规划策略,该策略会固定描述,这些描述无法适应环境的变化 [163] 。然而,另一种方法是可调整的规划,允许将环境反馈纳入输入提示,从而根据观察到的情况对动作进行调整。本节从这两个策略:静态和可调整的规划的角度对基于LLM的规划者进行了回顾。
静态规划方法通常为零或少量样本预测方法,其中零样本方法仅根据输入命令生成计划,而少量样本方法则利用从有限的相似示例中学习的方法。然而,由于推理能力有限,LLMs在长期任务规划方面往往表现不佳 [89, 140] 。为了克服这一局限性,Huang 等人引入了一个迭代选择由 LLM 产生的可执行动作中最可能的动作的规划器 [58]。
此外,基于LLM的代码生成器,例如Code as Policies [86] 或者ProgPrompt [128] ,会生成响应观察结果的代码。Singh等人表明,代码生成优于从LLMs中获得的基本任务规划,因为输出计划与执行环境紧密匹配[128] 。尽管这些方法具有优势,但它们缺乏验证和重新规划过程。
为了验证计划,研究人员通常会将逻辑程序与LLMs结合使用,要么(1)检查生成的计划是否违反了逻辑约束,要么(2)通过外部逻辑规划器生成计划。例如,SayPlan [118] 是一个基于GPT-4 的规划者,它通过场景图模拟器3DSG [1] 来验证抽象级别的动作;而LLM + P [89] 则应用从LLMs 转换来的PDDL问题到经典任务规划器Fast Downward [45] 。此外,Silver 等人表明,在探索更少节点的情况下,由LLMs 提供初始计划的搜索式规划者性能更好 [127]。这些研究强调了将LLMs 与逻辑程序集成以提高可行计划的成功率或性能的有效性。
适应性规划允许机器人根据反馈修改其计划或行动,要么通过基于环境观察生成新计划([20, 142, 152,168, 169]),要么检测失败并相应调整。Chen 等人和 Huang 等人介绍了基于观察到的反馈生成新计划的适应策略,使机器人能够响应更广泛的场景 [12, 60] 。
另一种适应策略是将失败作为反馈进行检测。例如,Inner Monologue [61] 尝试重新执行初始计划直到成功为止。此外,其他研究提供了关于过去失败的文本解释来帮助避免重复问题[87、94、117、147]。LLM-Planner [129] 和 COWP [28] 通过找到利用观察和 LLM 共识知识的替代方案来提高重规划能力。这些对新信息的适应灵活性增强了机器人在动态环境中的自主性。
5.2 任务和运动规划
我们概述了基于LLM的低级规划,将方法论分为运动规划和TAMP领域。
运动规划是指在配置或任务空间中计算序列的中间点以生成路径的过程。Jiao等人介绍了一个基于LLM的运动计划器,该计划器直接为无人机编舞生成位置序列 [68] 。虽然这项工作展示了LLMs的空间推理能力,但呈现的情景相对简单。此外,规划空间通常是连续的,这给使用离散令牌的语言模型带来了挑战。相反,间接排序方法,如VoxPoser[59] ,借助于VLM生成潜在领域代码,并且然后在生成的场内进行运动规划,从而将搜索式规划者与LMM结合在一起。
TAMP是指将高级任务规划与低级运动规划集成在一起。最近的研究通常使用LLMs作为TAMP计划者,利用LLMs的逻辑和物理推理能力 [79, 96, 153] 。研究人员引导LLMs生成高级子目标,然后用于低级轨迹生成 [79, 96] 。然而,LLMs粗略的表示限制了它们在简单任务如抓取和放置中的应用。为了应对这一局限性,研究人员通过额外提示或增强LLMs来提高其推理能力。例如,Xia等使LLMs能够考虑关节知识并通过关节感知提示进行更复杂的操纵任务,例如可变形对象操纵 [153] 。Ding 等人引入了一个逻辑增强的LLM 计划器,该计划器检查由LLMs产生的任务计划的逻辑可行性 [29] 。同时,其他人使用物理增强的LLM 计划器评估物理可行性 [18, 44, 88] 。例如,Text2Motion 允许一个LLM产生具有物理可行性的高级动作,并将其与学习技能相结合以实现低级动作。
六、控制
早期研究主要集中在建立简单的语言命令和已知运动基本单元之间的映射。随着深度学习的出现,研究人员探索了两种主要控制方法:基于语言指令直接建模控制值 [7、119] 和通过LLMs间接解释复杂指令以生成动作[154] 。我们把这项领域的工作分为两类:(1)直接方法是指根据语言指令直接产生控制命令; (2)间接方法是指通过语言指导间接指定控制命令。图1展示了详细的分类以及相关的论文,这些论文在橙色单元格中引用。
6.1 直接接触
直接方法涉及使用LLM来解释和生成可执行命令,要么通过选择运动原语 [134] 或者产生控制信号 [146, 170]。早期工作会生成动作令牌以训练Transformer架构的任务特定专家演示,例如Gato [119]、RT-1 [7] 和MOO [131] 。研究人员线性映射动作令牌到离散末端执行器速度 [119] 或位移 [7,131] 进行连续运动。虽然这些方法在未见过的任务上(如新对象或现实指令)表现出一定程度的泛化能力,但它们通常需要大量的数据收集和培训时间。
为了减少收集努力,研究人员经常利用现有的web规模的视觉和语言数据集,例如RT-2 [170] 和 RT-X [143]。例如,Zitkovich等人使用视觉语言数据集(如PaLI-X [17] 和 PaLM-E [31])以及机器人演示来训练VLMs [170] 。这种方法在控制任务中保持了对视觉语言任务的一般知识的同时进行训练。此外,为了减轻训练负担,Chen 等人使用低秩适应方法 (LoRA) [51] 对用于控制任务的LLM 进行微调而不是整个模型 [15] 的微调。
LLMs通常难以生成连续的行动级命令,例如关节位置和扭矩值。这是因为LLM通常会生成称为令牌的原子元素 [134] 。因此,研究人员使用LLM生成任务级别的输出[10、101、134]。例如,SayTap是一种基于LLM的步行控制器,它通过在行走运动中产生脚与地面之间的接触模式来代替直接产生关节位置,而不是使用LLM进行控制[134]。其他研究将控制问题作为自然语言生成的任务,并完成末端执行器姿态序列[101]或生成Python代码[10]。最近的研究经常限制动作空间以增强LLM控制输出。例如,Wang等人设计了一个提示符,该提示符可以生产出pos-
在保持输出的平滑趋势的同时,它控制整数值 [146]。或者,Li 等人表明将机器人动力学信息整合到 LLM 中有助于确定期望姿势所需的关节值[85]。
6.2 间接方法
LLMs 对于生成基于自然语言指令的间接表示控制命令也很有用,例如子目标或奖励函数。为了指导学习过程,研究人员利用解释期望行为的自然语言描述来引导学习过程 [32, 67,77] 。例如,ELLM[32] 是一个基于 LLM 的强化学习 (RL) 框架,它使用 LLM 来生成作为 RL 策略先验知识的子目标描述,并进一步使用当前观察和文本嵌入空间中的子目标描述之间的相似性计算奖励。此外,Kumar 等人根据人类指令的历史生成了用于重用先前学到技能的目标描述 [77] 。然而,由于 LLM 输出的是自然语言描述,这些方法需要额外一步将描述进行落地或解读。
此外,研究人员通常会生成代码级别的奖励函数。Yu 等人将自然语言目标转换为高级运动描述,并且生成相应的奖励函数 [161] 。然而,这种方法需要预先定义的奖励格式。相反,最近的工作通过提示 LLM 来从人类设计的例子中推断出新的奖励函数 [71, 145] 。但是,生成的奖励函数可能并不总是足够准确或优化以直接用于训练 [130] 。
为了提高准确性,研究人员添加了一个校验循环来验证生成的奖励函数的语法 [112] 和语义[95、130、154、165]。例如,Song 等人使用 LLM 来根据训练过程的收敛性和最终机器人运动重新设计一个奖励函数[130];Chu 等人使用 LLM 直接为评估机器人运动产生奖励[24]。其他方法通过调整控制参数以适应错误状态[133]或从人类反馈中选择合适的运动目标[90]来改进动作。
七、提示指南
我们为进入该领域的研究人员提供快速的设计指南。提示是一个消息,它引导LLMs根据我们的指令处理和生成输出 [92, 150] 。设计良好的提示
● 包括清晰、简洁和具体的陈述,不使用技术术语。
● 举例说明,允许预测模型的过程。
S指定我们希望输出以何种格式呈现,和
· 包含限制动作的指令。
提示使模型能够根据输出格式和约束生成所需的内容,而无需更新参数。我们为四个机器人领域提供了指导:(1)交互式定位、(2)场景图生成、(3)少量规划以及 (4) 奖励函数生成。
7.1 对话提示:交互式定位
我们详细介绍了利用LLM作为定位代理的对话提示设计,以澄清命令“给我拿点吃的”并推断出表达为“某物”的模糊目标。通过逻辑推理进行推断。图2显示了设计细节,其中提示由三个关键组件组成:任务描述、任务过程和任务上下文。我们进一步对每个组件进行了如下描述。
任务描述概述了预期行为和响应格式。在此示例中,我们特别强调其作为会话代理的角色,这促进了与用户的动态交互,并由诸如“你应该”之类的指令引导。此外,“保持”的强制性陈述提供了任务约束或要求。我们还在最后放置行为限制以抑制LLM的冗长性。
任务过程然后定义了LLM遵循的推理步骤序列,旨在实现任务目标。此描述使用编号步骤来指示LLMs逐个执行操作。通过逻辑表示法,我们还强制执行动作以在逻辑顺序中进行;我们将“迭代”用于“while循环”,将“如果”或“当”用作条件。
任务上下文描述了LLMs执行定位的环境输入,例如“世界模型”。在任务描述和任务程序中保持术语的一致性对于LLM操作至关重要。例如,诸如“任务”和“世界模型”的常见表达式允许LLM在相同环境中工作。此外,通过为世界模型中的对象使用清晰的名字,我们使LLM能够将通用知识应用于命名实体。请注意,尽管我们将一个列表的对象用作世界模型,但LLMs接受各种格式的世界模型:文本描述、对象列表以及场景图。
通过这些结构化组件,提示会引发一个交互式定位对话以进行精确的对象识别,如图2所示。我们使用ChatGPT 3.5 [106] 来获取结果的交互。
7.2 指令提示:场景图生成
我们介绍了一种使用多模态大型语言模型 (LLM) 构建场景图的指令提示设计,特别是与 GPT-4 [107] 结合。场景图由对象作为节点和它们的关系作为边组成[36, 41]。尽管多模态 LLM 的发展取得了进步,但其能力在从二维图像中推断三维关系方面存在局限性[13]。为了减少这种限制,我们将任务分解为两个步骤:利用多模态输入创建节点以及利用文本信息创建边。我们在图 3 中详细描述了每个步骤,并提供了示例。
节点创建的提示由两部分组成:(1)任务描述和 (2) 任务上下文。任务描述包括多模态LLM 的预期行为(即角色)以及响应格式,类似于第7.1节所述。例如,多模态 LLM 的角色是识别对象作为给定图像中的节点。然后我们指定输出格式为“Object Name(ID)”以保持一致性和简单性。接下来,任务上下文呈现一系列独特的对象标识符及其对应的对象为中心图像序列。在这种情况下,我们假设使用主动感知方法来获取具有遮挡的对象为中心图像。
边缘创建包括(1)任务描述、(2)示例和(3)任务上下文。任务描述不仅指定预期行为和输出格式,还阐明了如何利用示例识别节点之间的关系。我们特别解释了LLM如何使用三维对象坐标和单位测量来从预先定义的集合中推断空间关系,例如“左”、“右”等。“与节点创建不同的是,这允许生成额外的输出说明以适应辨别空间关系的复杂性。”
为了增强对输入格式和相应输出的理解,我们包括了展示边缘的示例
代。我们选择一个与目标场景相似的对象及其空间关系的示例,从而为边缘识别提供更丰富的信息。最后,任务上下文作为输入节点和输出空缺以获取来自LLM 的响应。我们也假设通过神经网络检测器 [104] 或使用深度信息从点云范围中获得三维边界框。
7.3 计划提示:少量计划
我们提出了一种规划提示设计,旨在预测后续行动以实现指令目标。该设计整合了可用动作和环境设置等上下文元素。这种设计特别关注少量样本的规划,并通过示例增强性能。该设计包括四个组件:(1)任务描述、(2) 示例、 (3) 任务上下文以及 (4) 增强交互,如图 4 所示。
任务描述包括任务目标、预期行为和与常规提示相似的响应格式。然而,不同于以往的是,这个提示指定了机器人的限制,包括初始状态和动作限制。例如,在图 4 中,“不能”强调机器人每次操作只能操纵一个物体的限制。此外,这些约束还扩展到“完成”的规则中,表明任务已完成。
这些例子展示了输入-输出对,引导LLM生成所需的操作。这些例子将允许操作中的通用“对象”参数(例如,“关闭(对象)”) 适应特定的对象名称(如抽屉或纸张),强化任务描述中写入的任务约束。例如,第二个示例返回的
图2 是交互式定位的对话提示。通过最终的“命令”,我们要求LLM将未指定的对象,即在“命令”中提到的“某物”,作为“饼干”进行交互式的个人偏好询问来定位该对象。提示符-
由任务描述、任务程序和任务上下文部分组成,引导LLM的行为和语境理解。加粗的单词表示与LLM响应交互的主题,用蓝色突出显示
任务上下文 整个场景可视化
ID:0,1.2.3.4。
完成任务目标后,发出“已完成”的信号而不是进一步规划。
任务上下文提供有关当前场景的信息,包括“任务”、“允许的操作”、“可见对象”、“执行计划”和“下一个计划”,如示例所示。我们允许LLM在“下一个计划:”之后填充空白处。
使用地理信息建立相关关系。加粗的单词表示输出主题,LLM响应以蓝色高亮显示
建议下一步操作,而无需添加不必要的元素如行末换行符,并确保输出精度。
此外,当附加提示更新执行计划时,LLM会根据此更新的上下文生成新的计划而无需重复整个任务上下文。
使规划过程动态化和迭代,以适应变化并保持效率。
7.4 编码提示:奖励设计
我们介绍了一种代码生成提示设计,用于从Gymnasium [139] 中的Reacher任务中生成基于MuJoCo的任务奖励函数。该任务的目标是将机械臂末端执行器移动到指定目标位置,并且从任意初始配置开始。提示旨在将此任务目标转换为奖励说明代码。图5显示了详细的设计内容,包括四个关键元素:(1)任务描述、(2)可用API、(3)目标和约束以及(4)生成规则。
任务描述定义了对LLM期望的机器人行为和任务条件,包括机器人的控制策略以及双关节机械臂的动作空间。我们特别指定动作空间为连续“Box”空间,并使用Gymnasium中的API进行假设,以使LLM熟悉知名库函数。然后,此描述引导LLM掌握已定义操作的整体RL目标。
可用的API列表列出了设计奖励函数所需的API,包括名称和输入-输出
描述、示例和任务上下文。粗体字表示与LLM响应高亮显示的交互主体
每个API的规格。通过提供Python函数注释,我们使LLM能够根据其对浮点变量类型和API工作原理的假设知识推断输入和输出类型的类型。
目标和约束提供了任务的目标和限制,指导奖励内容。我们明确定义了初始设置、目标分配和目标条件,以排除不必要的奖励组件,例如惩罚平滑运动中的高速度。请注意,我们建议使用简洁且一致的词语,如“扭矩”,而不是“功率”。这确保生成的奖励函数与指定的任务要求保持一致,并避免引入歧义或意外的惩罚。
最后,生成规则为直接可执行代码的生成提供了指导,并解决了大型语言模型倾向于产生不必要的或错误变量或函数的趋势。这些规则限制了此类声明,如图5中生成规则的第二个组件所示,鼓励使用众所周知的Python库来提高编程质量。此外,考虑到奖励功能线性组合元素,我们引入了一条规则以保持平衡。
图 5 奖励函数生成的提示示例。 提示由任务描述、可用 API、目标和约束以及生成规则组成,LLM 使用 Python 代码为强化学习训练生成奖励函数。
八、结论
在本次调查中,我们研究了大型语言模型(LLMs)在智能机器人组件中的应用情况,这些组件包括通信、感知、规划和控制。这种按组件的调查揭示了研究人员如何通过将LLMs集成到各种任务中来克服预-LLM方法固有的挑战,并为该领域提供全面的理解。在每个组件区域中,我们检查了提高利用LLMs能力的方法学改进以及增强其响应完整性的方法。此外,我们的调查还提供了每个组件区域的提示工程指南,补充了一些关键的提示组件示例,以提供进入该领域的研究人员的实际见解。本文的核心贡献是强调LLMs对机器人的变革性影响,从而促进多功能和智能机器人的开发。
通过整合这些见解,我们旨在指导未来将大型语言模型集成到机器人系统中的研究。
致谢 本研究得到了DRB-KAIST SketchTheFuture研究中心和KAIST融合研究所运营计划的支持。
资金开放获取基金由KAIST资助和组织。
开放获取:本研究受创 建性公共许可证 (Creative Commons Attribution 4.0 国际版) 的保护,允许在任何媒介或格式中使用、分享、改编、分发和复制,只要您向原始作者提供适当的引用,并且提供创用 CC 许可证的链接。如果材料未包含在文章的创用 CC 许可证内,则需要直接从版权持有人处获得许可。要查看此许可证的副本,请访问http://creativecommons.org/licenses/by/4.0/.
参考文献
Agia C,Jatavallabhula KM,Khodeir M等(2022)任务图:评估大型三维场景图中的机器人任务规划。在:机器人学习大会论文集 (CoRL),第 46-58页
2. Anil R,Borgeaud S,Wu Y 等(2023)Gemini:一个高度多模态模型家族。pp 1-62。arXiv预印本 arXiv:2312.11805
3. Arkin J,Park D,Roy S等(2020)多模态估计和交流隐含语义知识以实现机器人指令的稳健执行。国际机器人研究杂志 (IJRR),第 39 卷:1279-1304页
Axelsson A,Skantze G(2023)您是否遵循?一种完全自动化的系统用于自适应机器人演示者。在:ACM / IEEE国际人机交互大会论文集 (HRI),第 102 - 111页
5. 巴伯DJ,霍华德TM,沃尔特MR(2016)实时士兵机器人团队的多模态界面。在:第十八次无人系统技术会议,p 98370M
6. Blukis V,Misra D,Knepper RA等(2018)使用位置访问预测映射导航指令到连续控制动作。在:机器人学习会议论文集 (CoRL),第 505-518页
7. Brohan A,Brown N,Carbajal J等(2023)Rt-1:用于大规模现实世界控制的机器人变压器。在:机器人科学与系统会议论文集 (RSS),第 1 - 22 页
8. 布朗T,曼恩B,里德尔N等(2020)语言模型是少量样本学习者。在:神经信息处理系统大会 (NeurIPS),第1877-1901页
9.Cao Y,Lee C(2023a)基于大型语言模型的机器人行为树任务生成。在:AAAI 2023春季研讨会论文集挑战需要机器学习和知识工程相结合 (AAAI-MAKE),第 1 - 15页
10. Cao Y, Lee CG(2023b) 使用大型语言模型将地面操纵器的原始任务转换为可执行的操作。在:AAAI秋季研讨会系列论文集,第502-507页
11. Chattaraman V,Kwon WS,Gilbert JE等(2019)基于人工智能的对话式数字助手应采用社会或任务导向型交互风格吗?老年人的任务胜任力和互惠视角。计算机人类行为 90:315-330
12. 陈博,夏飞,伊克特尔B等(2023年)开放词汇查询场景表示用于现实世界规划。在:IEEE国际机器人与自动化会议 (ICRA),第11509-11522页
13.陈B,徐Z,基拉尼S等(2024年):SpatialVL-M:为视觉语言模型赋予空间推理能力。在IEEE计算机视觉与模式识别会议论文集上发表
14. 陈科,陈杰坤,庄佳等(2021)基于变压器的拓扑规划用于视觉和语言导航。在:IEEE计算机视觉与模式识别会议论文集 (CVPR),第 11276 - 11286页
15. 陈L,辛瓦斯基O,胡纳曼J等(2024年)驾驶与llms:融合对象级向量模态以实现可解释的自动驾驶。在IEEE国际机器人和自动化会议 (ICRA) 上发表。
16. 陈思,古赫尔普林·拉姆齐,塔帕斯维等(2022)全球思考、本地行动:视觉和语言导航的双尺度图变换器。在IEEE计算机视觉与模式识别大会 (CVPR) 上发表的论文,第 16537-16547页
17. 陈X,Djolonga J,Padlewski P等(2023b)Pali-x:扩展多语言视觉和语言模型。第1-30页。arXiv预印本arXiv:2305.18565
18. 陈Y,Arkin J,张Y等(2023c)Autotamp:使用LLM作为翻译和检查员的自回归任务和运动规划。在IEEE国际机器人与自动化会议 (ICRA) 上发表。
19.陈一,赵晨,于子等(2023)关于上下文学习中敏感性和准确性的关系。Find Association for Computational Linguistics:EMNLP 2023:155-167
20.陈Y,Arkin J,张Y等(2024c)大规模语言模型的多机器人协作:集中式或分布式系统?在IEEE国际机器人与自动化会议 (ICRA) 上发表。
21. Cherakara N,Varghese F,Shabana S等(2023)FurChat:一种使用LLMs的具身对话代理,结合面部表情与开放式和封闭式对话。在:特殊兴趣小组年会摘要集 (SIGDIAL),第588-592页
Cho H,Nam TJ(2023) Beau的故事:探索生成日记在塑造机器人社会感知方面的潜力。国际设计杂志第17卷:1-15页
Cho K,van Merriënboer B,Gulcehre C等(2014)使用RNN编码器-解码器学习短语表示用于统计机器翻译。在:自然语言处理经验方法会议论文集 (EMNLP),第1724 - 1734页
24. Chu K, Zhao X, Weber C 等(2024)通过大型语言模型反馈加速机器人操作强化学习。在:CoRL工作坊中连接认知科学和机器人学习的差距:进展与新方向,第1-10页
25. 大义,彭瑞,李思等(2024)思考、行动和提问:开放世界交互式个性化机器人导航。在IEEE国际机器人与自动化会议 (ICRA) 上的论文集上发表。
26. Devlin J,Chang MW,Lee K等(2019)BERT:用于语言理解的深度双向变压器预训练。在:北美计算语言学协会分会会议论文集:人类语言技术 (NAACL-HLT),第 4171-4186页
27. Di Palo N,Byravan A,Hasenclever L等(2023)向统一代理迈进:基于基础模型。在:ICLR研讨会“重生强化学习”,第1-14页
28. Ding Y, Zhang X, Amiri S 等(2023) 在开放世界中进行任务规划和情况处理的行动知识与LLMs集成。 自动机器人 47:981-997
29.丁一,张鑫,帕克斯顿C等(2023b)大型语言模型用于物体重新排列的任务和运动规划。在:IEEE/RSJ国际智能机器人与系统会议 (IROS),第 2086 - 2092页
30. 杜东,李亚,龚海等(2022)自然语言生成的调查。ACM计算机概览55:1-38
31.Driess D,Xia F,Sajjadi MSM等(2023)PaLM-e:一种具身的多模态语言模型。在国际机器学习会议论文集上发表,第8469-8488页
32. 杜宇,沃特金斯O,王泽等(2023)使用大型语言模型引导强化学习的预训练。在:国际机器学习大会论文集 (ICML),第8657 - 8677页
33. Elman JL(1990) 在时间中寻找结构。认知科学 14:179-211
34. Fikes RE,Nilsson NJ(1971) 条带:一种新的方法来应用定理证明到问题解决。Artif Intell 2:189-208
35. Firoozi R, Tucker J, Tian S 等(2023)机器人中的基础模型:应用、挑战和未来。第1-33页。arXiv预印本 arXiv:2312.07843
36. Fisher M,Savva M,Hanrahan P(2011) 使用图核来表征场景中的结构关系。在:ACM SIGGRAPH论文,第1-12页
37. 高杰,萨卡尔B,夏飞等(2024)基于物理的视觉语言模型用于机器人操作。在:IEEE国际机器人与自动化会议 (ICRA)
38. Garrett CR,Lozano-Pérez T,Kaelbling LP(2020)Pddlstream:通过乐观适应性规划将符号计划者和黑盒采样器集成。在国际自动规划与调度会议 (ICAPS) 上的论文,第 440-448页
39. Gatt A,Krahmer E(2018)自然语言生成领域的最新研究:核心任务、应用和评估。《人工情报》杂志第61期:第65-170页
40. Gopalan N,Arumugam D,Wong LL等(2018)非马尔可夫任务的序列到序列语言接地。在:机器人学科学与系统会议论文集 (RSS),第 1-10 页
41. Gu Q,Kuwajerwala A,Jatavallabhula KM等(2024)概念图:开放词汇的三维场景图用于感知和规划。在:IEEE国际机器人与自动化会议 (ICRA)
42. Guan L,Valmeekam K,Sreedharan S 等(2023)利用预训练大型语言模型构建和使用世界模型进行基于模型的任务规划。在:神经信息处理系统大会 (NeurIPS),第 79081-79094 页
43. Guzhov A,Raue F,Hees J等(2022)音频剪辑:将剪辑扩展到图像、文本和音频。在IEEE国际声学、语音与信号处理会议(ICASSP),第976-980页
Ha H,Florence P,Song S (2023). 扩大和浓缩:语言引导的机器人技能获取。在:机器人学习会议论文集(CoRL),第3766-3777页
45.Helmert M (2006). 快速向下规划系统。《人工智能研究》(JAIR)第26卷:191-246
46. 高赫里特尔S,施米德胡伯J(1997)长短期记忆。神经计算9:1735-1780
47. 邓红,甄海,陈鹏等(2023) 3D-LLM:将三维世界注入大型语言模型。在神经信息处理系统大会 (NeurIPS),第 20482 - 20494页
48. 邓颖,郑志,陈鹏等(2024)Multiply:一个多感官对象为中心的三维世界大型语言模型。在IEEE计算机视觉与模式识别会议论文集上发表。
49.Houlsby N,Giurgiu A,Jastrzebski S等(2019)NLP的参数高效转移学习。在:国际机器学习会议论文集 (ICML),第 2790-2799页
50. Howarth T,Stump E,Fink J 等(2022)基于现场机器人的语言交流智能架构。Field Robot 2:468-512
51.Hu EJ,Shen Y,Wallis P等(2022年)LoRA:大型语言模型的低秩适应。在国际学习表示会议 (ICLR) 上发表的论文,第 1-13页
52. 胡海,陈杰,刘浩等(2022)基于自然语言的工业机器人自动编程。网格计算杂志 20:26
53. Hu Y,Lin F,Zhang T等(2023a)“三思而后行”:揭示GPT-4V在机器人视觉语言规划中的力量。第1至20页。arXiv预印本arXiv:2311.17842
54. Hu Y, Xie Q, Jain V 等(2023b)通过基础模型实现通用机器人:综述和元分析。pp 1-48。arXiv预印本 arXiv:2312.08782
55. 黄C,梅斯O,曾A等(2023年)机器人导航的音频视觉语言地图。在:国际实验机器人研讨会论文集 (ISER),第1-8页
黄C,梅斯O,曾A等(2023年)机器人导航的视觉语言地图。在:IEEE国际机器人与自动化会议 (ICRA),第10608-10615页
57. 黄 S,江 Z,董 H 等(2023c)Instruct2act:使用大型语言模型将多模态指令映射到机器人动作。第 1-21 页。arXiv预印本 arXiv:2305.11176
58. 黄伟,阿贝尔P,帕塔克D等(2022)语言模型作为零样本规划者:提取可操作知识的实体化代理。在国际机器学习会议论文集上发表,第9118-9147页
59. 黄伟,王超,张瑞等(2023d)Voxposer:基于语言模型的可组合三维值图用于机器人操作。在:机器人学习会议论文集 (CoRL),第 540-562页
60. 黄伟,夏飞,沙德等(2023e)基于地面的解码:引导具身代理文本生成的地面模型。在神经信息处理系统大会 (NeurIPS),第 59636-59661 页
61. 黄伟,夏飞,肖涛等(2023f) 内在独白:通过语言模型进行规划的具身推理。 在机器人学习会议论文集上发表 (CoRL),第 1769 - 1782页
62.Hunt W,Godfrey T,Soorati MD(2024)用于环路中的人类多机器人协调的对话语言模型。在:国际自主代理和多代理系统会议 (AAMAS)
63. 伊集院雅,川原崎康介,小林洋等(2023)用于机器人日记的场景和情绪描述选择方法。在:IEEE国际人机交互通信会议论文集 (RO-MAN),第1683-1688页
64. Ichter B,Brohan A,Chebotar Y等(2023)言传不如身教:将语言扎根于机器人可利用性。在:机器人学习大会论文集 (CoRL),第 287-318页
65.Irfan B,Kuoppamäki SM,Skantze G(2023) 在现实与幻觉之间:将大型语言模型应用于老年人开放领域对话的伴侣机器人面临的挑战。Research Square预印本第1-43页
Jatavallabhula KM,Kuwajerwala A,Gu Q等(2023)概念融合:开放集多模态三维映射。在机器人学:科学与系统会议 (RSS),第 1 - 17 页
67. 姜泽,刘飞,图姆卢里等(2023)链式思维预测控制。在:ICLR研讨会“重生强化学习”,第1-16页
68. Jiao A,Patel TP,Khurana S 等(2023)Swarm-GPT:将大型语言模型与机器人编舞设计中的安全运动规划相结合。在NeurIPS机器人学习研讨会中:使用大规模模型进行预训练、微调和泛化,第1-10页
69. Kaddour J, Harris J, Mozes M 等(2023) 大语言模型的挑战与应用。第1-72页。arXiv预印本:arXiv:2307.10169
70. Kannan SS,Venkatesh VL,Min BC(2024)Smart-llm:使用大型语言模型的智能多代理机器人任务规划。pp1-8。arXiv预印本arXiv:2309.10062
71. 卡塔拉P,鲜Z,弗拉格卡迪基K(2023)Gen2sim:使用生成模型进行机器人技能学习的模拟扩展。在CoRL研讨会中,向通用型机器人迈进:可扩展技能获取的学习范式,第1至13页
72.Kerr J,Kim CM,Goldberg K等(2023)Lerf:嵌入语言的辐射场。在国际计算机视觉会议 (ICCV) 上发表的论文,第 19729-19739页
Khoo W,Hsu LJ,Amon KJ等(2023) 倒茶:当机器人对话代理支持老年人的福祉时。在ACM / IEEE国际人机交互大会的同伴中,第178-182页
Kim D, Kim J, Cho M 等(2022)基于场景图的自然语言引导语义导航。在:机器人智能技术与应用 (RiTA),第 148-156页
Kim D, Kim Y, Jang J 等(2023)Sggnet2:语音引导导航的语音-场景图定位网络。在IEEE国际机器人与人类互动通信会议 (RO-MAN) 上发表,第 1648 - 1654页
Kim D,Oh N,Hwang D等(2024)Lingo-Space:基于语言的增量空间接地。在:人工智能协会年会论文集 (AAAI),第 10314-10322页
77.Kumar KN,Essa I,Ha S(2023)语言指导的迭代运动精炼:将单词转化为行动。在CoRL工作坊上关于语言和机器人学习的语言作为基础,第1-11页
78.Kwon M,Hu H,Myers V等(2024)向基于现实的常识推理迈进。在:IEEE国际机器人与自动化会议 (ICRA)
79.Kwon T,Di Palo N,Johns E(2023)语言模型作为零样本轨迹生成器。在:CoRL工作坊关于语言和机器人学习:语言作为基础,第1-23页
80. 李YK,郑Y,康G等(2023)使用大型语言模型开发具有同理心的非言语线索的社会机器人。在:IEEE国际人机交互通信大会 (RO-MAN) 会议记录中。
81. 李博,温伯格KQ,贝尔隆吉S等(2022)语言驱动的语义分割。在:国际学习表示会议论文集 (ICLR),第1页至第13页
82. 李杰,李丹,萨瓦雷塞等(2023年)BLIP-2:通过冻结图像编码器和大型语言模型进行自监督的文本-图像预训练。在国际机器学习大会 (ICML) 上发表,第 19730 - 19742页
83. 李明,罗勒尔S,库利科夫I等(2020)不要说!通过训练不一致性对话。在:计算语言学协会会议记录 (ACL),第4715 - 4728页
84. 李思,朴道,宋宇等(2021)基于时间逻辑的反应任务和运动规划。在:IEEE国际机器人与自动化会议 (ICRA),第 12618-12624页
85. 李毅,李杰,傅伟等(2023b)在四足机器人上学习敏捷的双足运动。发表于IEEE国际机器人与自动化会议论文集 (ICRA)
86. 李江,黄伟,夏飞等(2023)代码即政策:具身控制的自然语言模型程序。在IEEE国际机器人与自动化会议 (ICRA) 上发表的论文,第 9493-9500 页
林碧云,傅毅,杨凯等(2023年):Swiftsage:一种具有快速和缓慢思考能力的生成代理,用于复杂的交互任务。在神经信息处理系统大会 (NeurIPS),第 23813 - 23825页
林克,阿吉亚C,米吉马塔T等(2023)Text2motion:从自然语言指令到可行计划。Auton Robots47:1345-1365
89. 刘博,江一,张雪等(2023a)Llm+p:通过最佳规划能力增强大型语言模型。第1-8页。arXiv预印本arXiv:2304.11477
90. 刘浩,陈安,朱亚男等(2023b)基于口头纠正的交互式机器人学习。在:CoRL工作坊语言与机器人学习:语言作为基础,第1-18页
91. 刘杰鑫,杨子,伊德里斯等(2023c)在未见环境中为时间任务扎根复杂的自然语言命令。 在:机器人学习会议论文集 (CoRL),第 1084-1110 页
92. 刘鹏,袁伟,傅杰等(2023)预训练、提示和预测:自然语言处理中提示方法的系统综述。ACM计算概览 55:1-35
93. 刘思,曾子,任涛等(2023e) 地龙:将地龙与预训练相结合用于开放集对象检测。第1-17页。arXiv预印本 arXiv:2303.05499
94. 刘志,巴赫蒂亚尔·阿卜杜勒(A),宋思(S) (2023f) 反省:总结机器人经验以进行失败解释和纠正。在:机器人学习会议论文集 (CoRL),第 3468 - 3484页
95. 马玉杰,梁伟,王广等(2023)Eureka:通过编码大型语言模型设计人类水平的奖励。在CoRL工作坊上关于语言和机器人学习的语言作为基础,第1-45页
96. Mandi Z,Jain S,Song S(2024)Roco:大型语言模型驱动的多机器人协作。在IEEE国际机器人与自动化会议 (ICRA) 上发表。
Mavridis N (2015) 人类与机器人之间的口头和非口头互动交流的回顾。机器人自动化系统,第63卷:第22页至第35页
98。麦克德莫特D,加拉布M,霍尔AE等(1998)PDDL——计划领域定义语言。技术报告
99. 美·H,班萨尔M,沃尔特M(2016)听、注意和行走:导航指令到动作序列的神经映射。在:人工智能协会年会论文集 (AAAI),第 2772-2778页
100. Minderer M,Gritsenko A,Stone A等(2022)简单开放词汇对象检测。在:欧洲计算机视觉会议论文集 (ECCV),第 728-755页
Mirchandani S,Xia F,Florence P等(2023)大型语言模型作为通用模式机器。在:机器人学习会议论文集 (CoRL),第 2498 - 2518页
102. Mirjalili R,Krawez M,Burgard W(2023a)Fm-loc:使用基础模型进行改进的基于视觉定位。在IEEE/RSJ国际智能机器人与系统会议 (IROS) 的论文集上发表,第 1381 - 1387页
103. Mirjalili R,Krawez M,Silenzi S 等(2023b)Lan-grasp:使用大型语言模型进行语义对象抓取。第 1-7 页。arXiv预印本 arXiv:2310.05239
Mousavian A,Anguelov D,Flynn J 等(2017) 使用深度学习和几何学估计三维边界框。在:IEEE计算机视觉与模式识别会议论文集 (CVPR),第 7074-7082页
105.Nyga D,Roy S,Paul R等(2018)基于自然语言指令的机器人计划从不完整的世界知识中获得。在:机器人学习会议论文集 (CoRL),第714-723页
106. 开放人工智能(2023)ChatGPT (1月15日版本)。https://chat.openai.com/chat,大型语言模型。
107. OpenAI,Achiam J,Adler S等(2024)GPT-4技术报告。第1至100页。arXiv预印本:arXiv:2303.08774
赵亮,吴江,蒋雪等(2022)使用人类反馈训练语言模型遵循指令。在:神经信息处理系统大会 (NeurIPS),第 27730 - 27744页
109. Park J,Lim S,Lee J等(2024) Clara:可靠交互式机器人代理的用户命令分类和去歧义。IEEE机器人与自动化快报 (RA-L),第 9 卷:1059-1066页
Patki S,Fahnestock E,Howard TM等(2020)基于语言的语义映射和移动操纵在部分可观察环境中。机器人学习会议论文集 (CoRL),第 1201 - 1210页
111. Peng S,Genova K,Jiang C 等(2023)Openscene:基于开放词汇的三维场景理解。在IEEE计算机视觉与模式识别会议论文集上发表,第815-824页
Perez J, Proux DM, Roux C 等(2023)Larg:基于语言的自动奖励和目标生成。第1-32页。arXiv预印本 arXiv:2306.10985
113. 前梅比达C,阿姆布斯R,马顿ZC(2018)智能机器人感知系统。在:移动机器人的应用。Inte-chOpen,第6章,p 111-127
114.Qian S,Chen W,Bai M,et al(2024)Affordancellm:从视觉语言模型中获取可及性。第1-12页。arXiv预印本arXiv:2401.06341
115. Radford A,Wu J,Child R等(2019)语言模型是无监督的多任务学习者。OpenAI博客第1-24页
116. Radford A,Kim JW,Hallacy C等(2021)从自然语言监督中学习可转移的视觉模型。在:会议记录
国际机器学习大会(ICML),第 8748-8763页。
117. Raman SS,Cohen V,Paulius D等(2023)CAPE:使用大型语言模型纠正先决条件错误的纠正措施。在CoRL工作坊上关于语言和机器人学习的语言作为基础,第1-9页
Rana K,Haviland J,Garg S等(2023)Sayplan:使用三维场景图对大型语言模型进行任务规划。在机器人学习会议上发表的论文集 (CoRL),第 23-72页
119. 瑞德S,佐尔纳K,帕里斯托E等(2022)通用型代理。机器学习研究交易会 (TMLR),第 1-42 页
120. Ren AZ,Dixit A,Bodrova A等(2023)寻求帮助的机器人:大型语言模型规划者的不确定性对齐。在:机器人学习大会论文集 (CoRL),第661-682页
121. Roy S, Noseworthy M, Paul R 等(2019)利用过去参考实现稳健的自然语言接地。在:计算自然语言学习会议论文集 (CoNLL),第 430 - 440页
122. Shah D,Osin´ski B,Ichter B等(2023a)Lm-nav:使用大型预训练语言、视觉和行动模型的机器人导航。在:机器人学习大会 (CoRL) 的会议记录中,第 492-504 页
123. Shah R,Martín-Martín R,Zhu Y(2023b)Mutex:从多模态任务规范中学习统一策略。在机器人学习会议上发表的论文集 (CoRL),第 2663-2682页
124. 肖磊,三上太郎,张强等(2021)Concept2Robot:从指令和人类演示中学习操作概念。国际机器人研究杂志(International Journal of Robotics Research (IJRR)) 40:1419-1434
Shridhar M,Mittal D,Hsu D(2020)Ingress:交互式视觉指代表达的定位。国际机器人研究杂志 (IJRR),第 39 卷:第 217-232 页
126. Shridhar M,Manuelli L,Fox D(2022)Cliport:What and where pathways for robotic manipulation。在机器人学习会议的论文集上发表,第894 - 906页
127. 银色T,哈里帕萨德V,沙尔特沃思RS等(2022)使用预训练大型语言模型的PDDL规划。在:NeurIPS决策制定基础模型研讨会,第1-13页
Singh I,Blukis V,Mousavian A等(2023)Progprompt:使用大型语言模型生成机器人任务计划。在IEEE国际机器人与自动化会议 (ICRA) 上的论文,第 11523 - 11530页
129. Song CH,Wu J,Washington C等(2023a) Llm-planner:使用大型语言模型的少量样本实体化规划。在国际计算机视觉会议 (ICCV) 上发表,第 2998 - 3009 页
130. 宋杰,周志华,刘佳等(2023b) 自动化强化学习机器人中的深度奖励函数设计者。pp 1-62。arXiv预印本:arXiv:2309.06687
131. 石A,肖T,陆Y等(2023)使用预训练的视觉语言模型进行开放世界对象操纵。在:机器人学习会议论文集 (CoRL),第 3397 - 3417页
132. 孙力,Jha DK,Hori C等(2024)使用大型语言模型进行部分可观察机器人任务的交互式规划。在:IEEE国际机器人与自动化会议 (ICRA)
133. Tagliabue A,Kondo K,Zhao T 等(2023)Real:使用大型语言模型的自主空中机器人中的弹性与适应。在CoRL工作坊上关于语言和机器人学习的语言作为基础,第1-12页
134. 唐亚,于伟,谭杰等(2023)Saytap:语言到四足运动。在机器人学习会议论文集上发表的报告 (CoRL),第 3556-3570页
135.Tellex S,Gopalan N,Kress-Gazit H等(2020)使用语言的机器人。控制与自主系统年鉴第3卷:25-55
Todorov E,Erez T,Tassa Y(2012) Mujoco:一个基于模型的控制物理引擎。在IEEE/RSJ国际智能机器人与系统会议 (IROS),IEEE上发表,第5026-5033页
137. Touvron H,Lavril T,Izacard G等(2023a) Llama:开放且高效的通用语言模型。第1-27页。arXiv预印本 arXiv:2302.13971
138. Touvron H,Martin L,Stone KR等(2023b)Llama 2:开放基础和微调聊天模型。第1-77页。arXiv预印本arXiv:2307.09288
139. 塔尔兹M,特里JK,库瓦茨科夫斯基A等(2023)体育馆。https://zenodo.org/record/8127025
140. Valmeekam K,Marquez M,Sreedharan S等(2023)大型语言模型规划能力的研究——一项关键调查。在:神经信息处理系统大会 (NeurIPS),第 75993 - 76005页
141. Vaswani A,Shazeer N,Parmar N等(2017)注意力就是你需要的。在:神经信息处理系统会议 (NeurIPS),第 1-11页
142. Vemprala S,Bonatti R,Bucker A等(2023)ChatGPT用于机器人:设计原则和模型能力。第1-25页。arXiv预印本arXiv:2306.17582
Vuong Q,Levine S,Walke HR等(2023)开放x-化身:机器人学习数据集和RT-x模型。在CoRL工作坊上关于语言与机器人学习的研讨会:语言作为基础,第1页至第16页
144. 王天,李亚,林海等(2023a)Wall-e:大型语言模型驱动的机器人服务员负载提升。第1-13页。arXiv预印本arXiv:2308.15962
145. 王一,鲜泽,陈飞等(2023b)Robogen:通过生成模拟释放无限数据以实现自动机器人学习。第1-39页。arXiv预印本arXiv:2311.01455
146. 王玉杰,张博,陈佳等(2023c)使用大型语言模型来提示机器人行走。第1-8页。arXiv预印本:arXiv:2309.09969
147. 王Z,蔡S,刘A等(2023d)描述、解释、计划和选择:与llm的交互式规划使开放世界多任务代理成为可能。在神经信息处理系统大会(NeurIPS),第34153-34189页
148. 魏杰,泰伊,博马萨尼等(2022年)大型语言模型的新兴能力。机器学习研究杂志 (TMLR),第 1-30 页
149. 魏杰,王旭,舒曼斯等(2022b)链式思维提示在大型语言模型中引发推理。载:神经信息处理系统大会 (NeurIPS),第 24824 - 24837页
150. 白J,傅Q,海斯S等(2023)增强ChatGPT的提示工程的提示模式目录。第1-19页。arXiv预印本:arXiv:2302.11382
151. 吴海华,塞提拉曼·普里扬卡,库马尔·凯伦等(2022)Wav2clip:从剪辑中学习鲁棒的音频表示。在IEEE国际声学、语音和信号处理会议 (ICASSP),第4563-4567页
152. 吴J,安东诺娃R,卡纳A等(2023)Tidybot:大型语言模型的个性化机器人辅助。Auton Robots 47:1087-1102
153. Xia W,Wang D,Pang X 等(2024)基于LLM的可变形对象操作的一般化运动感知提示。在:IEEE国际机器人与自动化会议 (ICRA)
Xie T,Zhao S,Wu CH等(2024)Text2reward:用于强化学习的自动密集奖励函数生成。在国际学习表示会议 (ICLR) 上发表。
155. 谢一,于晨,朱涛等(2023) 使用大型语言模型将自然语言翻译为规划目标。第1-15页。arXiv预印本:arXiv:2302.05128
Xu J,Jin S,Lei Y 等(2023)推理调优抓取:为机器人抓取适配多模态大型语言模型。在:机器人学习会议论文集 (CoRL),第 1-13 页
157. 山崎太,吉川克己,川本拓等(2023)为安卓机器人构建友好且可靠的对话系统:基于大型语言模型的场景化方法。Adv Robot 37:1364-1381
158. 杨杰,陈鑫,钱思等(2023年)LLM-grounder:使用大型语言模型作为代理的开放词汇三维视觉定位。在CoRL工作坊上发表的语言和机器人学习研讨会:语言作为定位器,第1-8页
159. 杨S,刘J,张R等(2023b)Lidar-LLM:探索大型语言模型在三维激光雷达理解方面的潜力。第1至15页。预印本arXiv:2312.14074
160. 杨子,拉曼SS,沙阿A等(2023c)插入安全芯片:对LLM驱动的机器人代理施加约束。在CoRL工作坊上发表语言和机器人学习:语言作为基础,第1-15页
Yu W,Gileadi N,Fu C 等(2023)语言到奖励的机器人技能合成。在:机器人学习大会论文集 (CoRL),第 374-404页
Yu Y, Zhang Q, Li J 等(2024)可负担的生成代理。pp1-20。arXiv预印本:arXiv:2402.02053
163. 曾亚,阿塔里安M,伊克特B等(2022)苏格拉底模型:使用语言进行零样本多模态推理。在国际学习表示会议 (ICLR),第 1-35页
164. 曾凡,甘伟,王宇等(2023)机器人中的大型语言模型:综述。第1-19页。arXiv预印本arXiv:2311.07226
165. 曾毅,徐扬(2023)使用大型语言模型学习物理技能的奖励。在:CoRL工作坊上关于语言和机器人学习的语言作为基础,第1-22页
166. 张海,杜伟,山杰等(2024)使用大型语言模型构建模块化协作代理。在:国际学习表示会议 (ICLR)
167. 赵文轩,周凯,李佳等(2023a)大型语言模型的调查。第1-124页。arXiv预印本:arXiv:2303.18223
168. 赵鑫,李敏,韦伯等(2023b)与环境对话:使用大型语言模型进行交互式多模态感知。在IEEE/RSJ国际智能机器人和系统会议 (IROS),第 3590-3596页
169. 赵子,李伟胜,徐德(2023c)大型语言模型作为大规模任务规划的常识知识。在:神经信息处理系统大会 (NeurIPS),第 31967 - 31987页
170. Zitkovich B,Yu T,Xu S 等(2023)Rt-2:视觉语言动作模型将网络知识转移到机器人控制。在:机器人