概述
论文地址:https://arxiv.org/abs/2308.15214
机器人技术和人工智能领域取得了长足的进步,现在,机器人在工业领域之外也发挥着各种作用。特别是,接待机器人在办公室和酒店接待来访者时,在提供地点和服务信息方面发挥着重要作用。
在本文中,我们开发了一个能与人类进行自然对话的会话代理 FurChat2。该代理利用先进的大规模语言模型,能够自然地进行开放域和封闭域对话。该系统已被应用到瑞典 Furhat 机器人公司开发的 Furhat机器人上,演示显示了与机器人进行更自然、更直观对话的新可能性。通过 Furhat 机器人,不仅可以通过语言,还可以通过面部表情等非语言提示与人类互动。
该系统专为国家机器人馆设计,通过与参观者的自然对话提供有关设施、研究、新闻和活动的信息。此外,FurChat2 还使用 GPT-3.5 模型来提供基于提示工程、跨域对话和面部表情生成的信息。
在机器人与人类的互动中,使用适当的语言和非语言提示至关重要,这也是机器人与传统代理的显著不同之处。传统代理以基于规则的方式运行,依赖于预先编程的命令和关键词,这限制了它们在对话中的自由选择。然而,FurChat2 的开发利用了大规模语言模型,实现了开放域互动,使用户的互动更加自然和个性化。
未来,预计机器人将不仅仅是接待员,而是多功能对话代理。
毛皮机器人
Furhat 是 Furhat Robotics 公司开发的一款创新型社交机器人。该机器人采用先进的人工智能对话技术和面部表情技术,能够与人类进行自然、直观的互动;Furhat 的面部使用三维面具模仿人类面部表情,并通过微型投影仪进行动画演示。这项技术使机器人能够提供更加逼真和富有情感的面部表情。
此外,Furhat 还由一个电动平台支撑,使其颈部和头部可以移动、旋转和点头。这样,在互动过程中就能做出更像人类的动作和逼真的面部表情和手势。该机器人配备了麦克风阵列和扬声器,可以识别并适当回应人类的讲话。
然而,Furhat 与人类相似的外观有时会导致 "不可思议谷 "现象。这种现象是一种心理效应,即 “机器人的外观和动作越接近人类,人类就越喜欢它,但当相似度达到一定程度时,情况就会相反:他们会觉得它令人毛骨悚然”。然而,Furhat 被认为是向更深入的人类互动迈出的重要一步。这种先进机器人的表现力和互动能力使其成为在各种环境中执行接待任务的理想选择。
系统概述
下图显示了对话系统的结构,用户可以通过口语与机器人进行交互。该系统由几个关键组件组成。
该系统由三个部分组成:自动语音识别 (ASR),将用户陈述转换为文本;自然语言理解 (NLU),处理并解释文本;对话管理器 (DM),管理对话流程;自然语言生成 (NLG),利用 GPT-3.5 生成自然发音的回应。生成的文本通过文本到语音技术(TTS)转换成语音,并由机器人的扬声器输出,以实现对话。系统根据用户意图从数据库中检索相关数据。
自动语音识别(ASR)使用谷歌云语音转文本模块。该模块使用机器学习算法将口语转录为文本,并通过 Furhat SDK 集成到系统中。
对话管理由三个子模块组成:自然语言理解 (NLU)、对话管理器(DM)和数据库存储。FurhatOS 提供了一个 NLU 模型,可根据置信度将文本归类为特定意图。
Furhat SDK 内置的对话管理器可根据 NLU 组件识别出的意图维持对话流程并管理对话状态。该模块向大规模语言模型发送适当的提示,并在收到模型的回应后进行处理,以添加所需的面部手势。
目前的大规模语言模型面临的挑战之一是生成非事实内容,这会破坏用户信任并引发安全问题。虽然这不是一个完整的解决方案,但人们正在创建定制数据库,试图减轻这种影响。在这里,数据库是通过对国家机器人馆网站进行人工网络搜刮而建立的。当适当的意图被触发时,对话管理器就会从数据库中检索信息,并将其与提示一起发送,以引起大型语言模型的响应。
自然语言生成(NLG)负责根据对话管理器的请求生成响应。这一过程的一个关键部分是提示工程,即使用大规模语言模型来引出适当的回复。
该系统使用 text-davinci-003,这是 GPT-3.5 系列中功能非常强大的模型,每 1000 个代币的成本为 0.0200 美元。提示工程定义了机器人的个性和应用背景,并使用从以往对话历史和数据库中提取的信息来形成对话。
表情符号也会根据对话的流畅程度,在适当的地方用来表达情绪。例如,在表达喜悦或幽默的对话中会选择微笑手势,而在表达同情或悲伤的对话中则会选择悲伤的面部表情。这样就能将基于文本的大型语言模型无缝集成到具身的 Furhat 机器人中,从而实现更自然的对话。请注意,提示格式为 “这是与机器人接待员的对话,<机器人个性>,<数据库中的数据>,<对话历史>,<回复格式及表情示例>”。
此外,Furhat SDK 还提供内置手势,可根据特定需求添加自定义面部手势。它使用最先进的 GPT 模型从文本中识别情绪,并在此基础上生成表达相应情绪的手势。在收到模型的回复后,对话管理器会从一组预定义的手势中选择最佳表情,并与生成的语音同时激活。
要将文本转换为语音,需要使用亚马逊 Polly 服务。该服务在 FurhatOS 中默认提供,可实现清晰自然的语音输出。
通过这种方式,Furhat 机器人利用先进技术加深用户参与度,实现自然对话。下图展示了人类与机器人之间的对话示例。
总结
本文开发了一款对话机器人 FurChat,可用作接待员。该机器人的对话代理使用先进的大规模语言模型 GPT-3.5 生成开放域和封闭域对话和面部表情。该系统基于 Furhat SDK,采用一对一访客交互方案。
从未来的角度看,项目的目标是多向对话,这是开发接待机器人的一个活跃的研究领域。此外,针对大规模语言模型生成内容不准确的问题(即所谓的 "幻觉 "问题),正在计划对语言模型进行微调,并转向不依赖自然语言理解(NLU)组件的直接对话生成。使用大规模语言模型的对话机器人有望取得进一步进展。