note
- 这篇论文介绍了V-IRL平台,一个旨在弥合数字世界和物理世界之间感知差距的开源平台。通过V-IRL,代理可以利用真实的地理空间数据和街景图像,发展出丰富的感官锚定和感知能力。平台展示了其在创建多样化示例代理和开发全球基准测试方面的多功能性和适应性。未来的研究可以利用V-IRL开发和测试能够理解和与真实世界互动的代理。
- 为了开发能够在现实环境中灵活运行的Agent,项目V-IRL作为一个开源框架,引入了一个可扩展的平台,利用地图、地理空间和街景图像等API,将AI Agent嵌入真实的城市环境中进行交互,为Agent提供了更真实且完整的生活体验。团队使用V-IRL实例化了一系列智能体,它们可以在城市中执行各种复杂任务,如城市导航、地点推荐、探索目标和互动等真实情况;以丰富的感知和描述性数据为基础,协作解决问题。
- 此外,也通过Agent评估改进模型在处理现实世界数据和执行复杂任务方面的能力,为全球范围内的Agent和开放世界计算机视觉研究提供实践场所。
文章目录
- note
- 一、相关背景
- 二、研究方法
- 1. 框架组件
- 2. Diego框架
- 三、实验设计
- 四、V-IRL基准
- Place: Localization 定位
- Place: Recognition and VQA 识别与视觉问答
- Vision Language Navigation 视觉语言导航
- Geographic Diversity 地理多样性及挑战
- 五、论文总结
- 优点与创新
- 不足与反思
- 六、QA环节
- 问题1:V-IRL平台的核心架构是如何设计的?各层组件的具体功能是什么?
- 问题2:V-IRL平台在地点检测和识别任务中表现如何?有哪些模型在这些任务上表现突出?
- 问题3:V-IRL平台在视觉语言导航(VLN)任务中的表现如何?哪些因素影响了导航的成功率?
一、相关背景
V-IRL: Grounding Virtual Intelligence in Real Life
论文地址:https://arxiv.org/abs/2402.03310
代码地址:https://github.com/VIRL-Platform/VIRL
项目地址:https://virl-platform.github.io/
关键词:时空智能体 多模态 地图 智慧交通
- 研究问题:这篇文章要解决的问题是如何弥合数字世界和物理世界之间的感知差距,使得人工智能代理能够在真实环境中像人类一样感知、思考和行动。
- 研究难点:该问题的研究难点包括:如何在没有真实硬件和控制的情况下,使代理能够在丰富多样的真实环境中进行导航、执行复杂任务并与实时场景进行交互;如何在大规模的真实世界数据上评估和优化视觉模型和语言模型的性能。
- 相关工作:该问题的研究相关工作包括:AI代理的发展,特别是基于大型语言模型(LLMs)的代理,这些代理在文本环境中表现出色,但在视觉感知方面存在局限;具身AI的研究,主要集中在模拟环境中训练机器人以执行导航和操作任务;以及开放世界计算机视觉的研究,现有模型主要依赖于互联网数据,缺乏对真实世界的广泛覆盖。
二、研究方法
1. 框架组件
论文提出了V-IRL平台,用于解决AI代理在真实环境中的感知和行动问题:
- 平台架构:V-IRL平台的核心是一个分层架构,底层提供基础设施,高层能力包括感知、推理、行动和协作。代理通过用户定义的元数据和平台组件的组合来解决特定任务。
- 环境组件:环境组件负责将代理锚定在现实世界中,提供可导航的城市表示。使用Google地图平台(GMP)访问街景图像、查询有效移动、检索附近位置信息并规划路线。
- 视觉组件:视觉组件使代理能够处理环境提供的丰富感官数据,特别是街景图像。预训练的定位模型使代理能够精确理解其环境,而开放世界识别模型则允许代理检测更广泛的对象。
- 语言组件:语言组件允许决策基于来自感知和环境的信息。LLMs(如GPT-4)接口到各种API,将环境数据和感知输出转化为可操作的洞察。
为了展示V-IRL平台的多功能性,团队使用了全球真实城市中实例化的8个示例Agent:
- Earthbound Agents
- [Map➜Action] 动作和地理定位与映射功能
- 基于V-IRL平台的Agent居住在全球真实城市的虚拟“代表”中,“代表”即地球表面上的点相对应的地理坐标,作为虚拟和现实之间的纽带。Agent则使用地图API、真实街景图像、附近目的地信息等将自己融入到现实世界中。
- Language-Driven Agents
- [LLM➜Reasoning] 推理和语言模型
- 为了处理更复杂的任务,也加入了由语言驱动Agent的模式。LLM大型语言模型使Agent能够推理、计划和使用外部工具和API。
- Visually Grounded Agents
- [Vision➜Perception] 感知与计算机视觉
- 尽管语言驱动的Agent可以使用外部工具解决一些现实世界的任务,但它们对基于文本的信息依赖限制了它们对需要视觉基础的任务的适用性。相比之下,真实的视觉感官输入是许多人日常活动中不可或缺的一部分,可以与我们周围的现实世界建立深入的联系和理解。所以基于计算机视觉功能,Agent可以通过V-IRL平台利用街景图像,在视觉上将自己置于现实世界中,从而开启各种感知驱动的任务。
- Collaborative Agents
- [Colab➜Collaboration] Agent+人的协作机制
- 参考人们一同工作来解决复杂任务,此类协作将复杂的任务分解为更简单的子任务来提高效率和有效性,允许每个任务由其领域的专家来处理;Agent可以与Agent互动,也可以与人互动。
2. Diego框架
“Diego”使用迭代计划流程。首先使用GPT-4为第一项活动创建一个初步计划草案,并将用户个人背景、要求和以往活动纳入工作记忆。然后通过分层协调(真实的地理空间/地点信息)、感知估算(活动成本和对人类状态的影响)和监督(预算和潜在干预)对草案进行细致完善。
三、实验设计
- 数据收集:在全球范围内选择了14个区域,覆盖12个城市,确保数据分布的多样性。每个区域收集了地理坐标、街景图像、地点信息和地点中心图像。
- 数据清理:设计了三种自动数据清理策略:基于距离的过滤、人工审查过滤和CLIP过滤,以确保数据的高质量。
- 实验设置:在多个基准任务上评估了视觉模型和语言模型的性能,包括地点检测、地点识别和VQA、视觉语言导航等。
四、V-IRL基准
V- IRL基本属性包括其访问源自现实世界感官输入的不同地理位置数据的能力,并且提供了一个便捷的API与谷歌地图平台GMP进行交互。研发团队开发了三个V-IRL基准,以评估现有愿景模型在此类开放世界数据分发中的能力:V-IRL地点(Place)、V-IRL视觉语言导航(Vision Language Navigation)和地理多样性(Geographic Diversity)。
Place: Localization 定位
动机:
人们为了各种目的前往不同地点,每日在城市中穿梭,与Agent类似。因此,可以利用街景图像及其相关的地点数据,来测试视觉模型在日常地点定位任务上的表现。
设置:
研究人员对RX-399 Agent进行了微调,使其能够在定位和识别20种地点类型的同时,穿越多边形区域。测试共包含三种开放世界检测模型:GroundingDINO、GLIP和Owl-ViT,研究人员同时设置了一个简单的基准模型—CLIP(结合GLIP提案),即使用CLIP对GLIP提出的分类进行重新分类。模型的评估依据是定位召回率,即正确定位的地点数与总定位尝试中的地点数之比。
结果:
由下表所示,开放世界检测器如GroundingDINO、Owl-ViT和GLIP对某些特定地点类型(例如学校、咖啡馆和便利店)是有明显偏好的。与之相比,CLIP(w/GLIP proposal)能识别更多种类的地点。这主要是因为对象检测数据集中存在的类别偏差,这些数据集通常只包含有限的词汇。因此,即便是使用了CLIP进行初始化的检测器,如Owl-ViT,其能识别的词汇范围也会在微调之后缩小。这些发现表明,对于那些在对象检测数据集中不太常见的类别,使用不依赖于特定类别的对象提案,进而利用零样本识别技术进行开放世界定位,是一种很有潜力的方法。
Place: Recognition and VQA 识别与视觉问答
动机:
相较于在街景图像上进行复杂的V-IRL地点定位任务,人们在现实生活中可以通过近距离观察来轻松识别各种商业场所。对此,研究人员对现有的视觉模型在两种以地点为主的图像感知任务上进行了评估:
(1)识别具体的地点类型;
(2)通过视觉问答来识别人类的意图,也就是意图VQA。
设置:
在识别方面,研究人员评估了10种开放世界识别模型。测试使用的是以地点为中心的图像,而模型需要从96个选项中识别出地点类型。在意图VQA方面,研究人员还评估了8种多模态大语言模型(MM-LLM),方法是通过包含有4个选项的多选题来判断人类的可能意图。V-IRL地点VQA的过程如下图所示,其中每个问题的可能答案和正确答案都是由GPT-4自动生成的。
结果:
结合图表,在V-RL地点识别任务中,CLIP(L/14@336px)的表现超过了Eva-02-CLIP和SigLIP的最大版本,凸显了CLIP数据的质量之高。表格的底部显示,在意图VQA方面,BLIP2、InstructBLIP和LLaVA-1.5表现优异,而其他模型则表现不佳。这三个表现最好的MM-LLM在评估过程中给出了一致的答案,而其他模型因为选择不一致而常常失败。
Vision Language Navigation 视觉语言导航
动机:
Intentional Explorer和Tourist Agent想完成复杂的任务,就必须要同时利用视觉和语言模型。因此,研究人员通过引入结合了真实街景的新任务,创建出了V-IRL视觉语言导航(VLN)基准测试。
设置:
研究人员微调了Tourist智能体的实现方式,将其识别组件替换为了不同的基准测试模型,负责在导航过程中识别视觉地标。接着,GPT-4会根据识别的结果预测下一步动作。其中,导航指令由Local Agent生成。研究人员共评估了四种方法在导航时识别地标的能力:
(1)通过搜索附近地标的近似方法;
(2)零样本识别器CLIP和EVA-02-CLIP;
(3)多模态大语言模型LLaVA-1.5;
(4)使用OCR模型识别街景中的文本,然后通过GPT解析答案。
结果:
如下表所示,当使用oracle地标信息时,强大的LLM能够精准地理解导航指令并做出正确的决策,表现令人印象深刻。但是,当依赖视觉模型从街景获取地标信息时,成功率大幅下降,这说明视觉模型的感知存在误导,影响了LLM的决策。在这些识别器中,CLIP和EVA-02-CLIP的大规模版本表现更为出色,凸显了模型scaling的优势。LLaVA-1.5作为视觉编码器使用CLIP(L/14@336px)时表现不佳,可能是因为在指令微调过程中存在对齐问题。另外,PP-OCR(+ GPT-3.5)的成功率为28%,体现出OCR对于视觉地标识别至关重要。
Geographic Diversity 地理多样性及挑战
V-IRL基准测试涵盖了全球12个不同的城市,进而提供了一个独特的视角,来观察视觉模型在不同地区可能存在的偏差。如下图,视觉模型在尼日利亚拉各斯、日本东京、中国香港和阿根廷布宜诺斯艾利斯的表现都不尽如人意。其中,东京、香港和布宜诺斯艾利斯等城市普遍使用了非英语文字。而拉各斯的街景更是与发达城市相比大相径庭,难倒了不少视觉模型。这一现象揭示了一个重要的问题:目前的视觉模型在处理包含多种语言的图像数据时面临挑战。
五、论文总结
优点与创新
- V-IRL平台:V-IRL是一个开源平台,旨在弥合数字世界和物理世界之间的感官差距,使AI代理能够在虚拟但现实的环境中与真实世界互动。
- 丰富的感官定位和感知:通过使用真实的地理空间数据和街景图像,V-IRL使代理能够发展出丰富的感官定位和感知能力。
- 多样化的示例代理:开发了多种示例代理,展示了平台的多功能性和适应性。
- 全球基准测试:开发了全球规模的基准测试,衡量基础语言和视觉模型在开放世界视觉数据上的性能,包括在孤立使用和端到端代理性能上的评估。
- 开放世界的视觉模型:讨论了“开放世界”视觉模型对全球各地真实数据的鲁棒性。
- 自动数据收集和注释:开发了一个自动化的数据/注释构建管道,允许模型在全球范围内方便地进行测试,前提是访问Google街景。
- 地理多样性:V-IRL基准测试提供了分析不同地区模型固有不一致性的机会。
不足与反思
- 数据隐私和伦理问题:尽管V-IRL使用的是预先存在的、公开可用的API,并且不捕获或提供任何以前无法访问的数据,但其主要街景图像来源Google Maps受到隐私保护措施的限制。V-IRL遵守Google Maps平台的许可协议,类似于其他利用Google街景的现有工作。
- 局限性:V-IRL使用的数据是“过时的”,并且是预处理的,提供了一个受控的环境来研究这些关注点。实时系统将面临不同的挑战。
- 未来工作:希望V-IRL能够帮助促进社区中关于未来挑战的积极讨论,特别是在部署实时系统时可能出现的伦理困境。
六、QA环节
问题1:V-IRL平台的核心架构是如何设计的?各层组件的具体功能是什么?
V-IRL平台的核心是一个分层架构,底层提供基础设施,高层能力包括感知、推理、行动和协作。具体来说,平台包括以下几个关键组件:
- 环境组件:负责将代理锚定在现实世界中,提供可导航的城市表示。利用Google地图平台(GMP),代理可以访问街景图像、查询有效移动、检索附近位置的信息和规划路线。
- 视觉组件:使代理能够处理环境提供的丰富感官数据,特别是街景图像。预训练的定位模型使代理能够精确理解其环境,而开放世界识别模型则允许代理检测更广泛的对象。
- 语言组件:允许决策基于来自感知和环境的信息。LLMs(如GPT-4)接口到各种API,将环境数据和感知输出转化为可操作的洞察。
- 协作组件:支持代理之间的协作以及与人类用户的协作,通过自然语言和地理空间数据进行交互。
这些组件共同工作,使得代理能够在虚拟但真实的环境中感知、思考和行动。
问题2:V-IRL平台在地点检测和识别任务中表现如何?有哪些模型在这些任务上表现突出?
在地点检测任务中,V-IRL平台评估了多个开放世界检测模型,包括GroundingDINO、Owl-ViT、GLIP、OpenSeeD和Owl-ViT v2。结果显示,这些模型在某些地点类型上表现较好,例如学校、咖啡馆和便利店。然而,CLIP(w/ GLIP proposal)能够识别更广泛的地点类型,表现出更强的泛化能力。
在地点识别和VQA任务中,V-IRL平台评估了10个开放世界识别模型和13个多模态大型语言模型。CLIP(L/14@336px)在识别任务中表现最佳,而LLaVA-NeXT在VQA任务中表现出色。大型闭源LLMs如GPT-4V和Qwen-VL-Max也表现优异,但在一致性方面仍存在问题。具体来说,CLIP(L/14@336px)在地点识别任务中的平均准确率为41.3%,在VQA任务中的平均准确率为65.9%。
问题3:V-IRL平台在视觉语言导航(VLN)任务中的表现如何?哪些因素影响了导航的成功率?
在视觉语言导航(VLN)任务中,V-IRL平台评估了多种模型的性能。在有Oracle地标信息的情况下,强大的LLMs如GPT-4能够准确理解导航指令,导航成功率达到100%。然而,当依赖视觉模型从街景图像中获取地标信息时,成功率显著下降,表明视觉模型的感知存在噪声,误导了LLMs的决策。具体来说,CLIP(L/14@336px)在VLN任务中的成功率仅为22%。
影响导航成功率的因素包括:
- 视觉模型的准确性:视觉模型在从街景图像中提取地标信息时存在误差,导致LLMs的决策不准确。
- 模型规模:较大的模型如CLIP(L/14@336px)在识别地标时表现更好,表明模型规模对性能有积极影响。
- 数据质量和多样性:全球范围内的数据集虽然提供了丰富的数据,但也存在地域和文化偏差,可能影响模型在不同地区的表现。