您的位置:首页 > 教育 > 培训 > hao爱做网站_web网页在线webproxy_搜索引擎大全全搜网_seo是干啥的

hao爱做网站_web网页在线webproxy_搜索引擎大全全搜网_seo是干啥的

2024/12/25 11:43:44 来源:https://blog.csdn.net/flyfish1986/article/details/144686555  浏览:    关键词:hao爱做网站_web网页在线webproxy_搜索引擎大全全搜网_seo是干啥的
hao爱做网站_web网页在线webproxy_搜索引擎大全全搜网_seo是干啥的

基于推理的目标检测 DetGPT

flyfish

detgpt.github.io
近年来,由于大型语言模型(LLMs)的发展,计算机视觉领域取得了重大进展。这些模型使人类与机器之间能够进行更有效、更复杂的交互,为模糊人类与机器智能界限的新技术铺平了道路。在本文中,我们引入了一种新的目标检测范式,我们称之为基于推理的目标检测。与依赖特定物体名称的传统目标检测方法不同,我们的方法允许用户使用自然语言指令与系统进行交互,从而实现更高水平的交互性。我们提出的方法称为 DetGPT,它利用最先进的多模态模型和开放词汇目标检测器,在用户指令和视觉场景的背景下进行推理。这使得 DetGPT 能够根据用户表达的需求自动定位感兴趣的物体,即使该物体没有被明确提及。

在这里插入图片描述

例如,如果用户表示想要一杯冷饮,DetGPT 可以分析图像,识别出冰箱,并利用其对冰箱内常见物品的了解来定位饮料。这种灵活性使我们的系统适用于从机器人技术、自动化到自动驾驶等广泛的领域。总体而言,我们提出的范式和 DetGPT 展示了人类与机器之间进行更复杂、更直观交互的潜力。我们希望我们提出的范式和方法将为业界带来启发,并为更具交互性和通用性的目标检测系统打开大门。
在这里插入图片描述
内容如下:

对话:

  • Assistant: The image depicts a scene from the video game “The Legend of Zelda: Breath of the Wild.” In this game, there is a city called Gerudo Town, where only women are allowed and men are prohibited.
    • 助手:这张图片描绘了视频游戏《塞尔达传说:旷野之息》中的一个场景。在这个游戏中,有一个叫格鲁德镇的地方,那里只允许女性进入,男性禁止入内。
  • User: how to enter this city for Link?
    • 用户:林克要如何进入这个城市?
  • Assistant: In the game “The Legend of Zelda: Breath of the Wild,” there is a city called Gerudo Town, where only women are allowed and men are prohibited. To enter this city, you need to find a way to disguise yourself as a woman. One way to do this is to wear a Gerudo outfit, which can be found in various locations throughout the game.
    • 助手:在游戏《塞尔达传说:旷野之息》中,有一个叫格鲁德镇的地方,只允许女性进入,男性禁止入内。要进入这个城市,你需要想办法把自己伪装成女性。一种方法是穿上格鲁德套装,这种套装可以在游戏中的各个地方找到。
  • Detected Objects: Gerudo outfit.
    • 检测到的物体:格鲁德套装。

例子

一部分是关于人们在草地上放风筝的描述和相关问题与答案;另一部分是关于办公桌及其上的物品的描述和相关问题与答案。
请添加图片描述

第一部分(放风筝场景):
标题:

  • 一些人在草地上放风筝。
  • 一个男孩在公园里玩风筝。
  • 一群人在公园里放着一只色彩斑斓的风筝。
  • 一位女士和一个小女孩在绿色的田野上拿着风筝。
  • 一群人站在田野上放着一只彩色的风筝。

物体:

  • 椅子、风筝、背包、人

描述:
图像展示了一群人在草地上放风筝。有些人站着,有些人坐在椅子上。一位女士和一个小女孩正抓着风筝,让它飞起来。背景中有树木和其他绿色植物。

查询与回答:

  1. 我想放风筝。我需要什么物体?答案:图像中有一个风筝,你可以用它来放风筝。因此答案是:[风筝]
  2. 找出图像中的所有人。答案:图像中有多个可见的人,站着或坐着放风筝。因此答案是:[人]
  3. 我想坐着放风筝。我能使用什么物体?答案:图像中有草地上的椅子,你可以用来坐着放风筝。因此答案是:[椅子]
  4. 找出所有颜色鲜艳的物体。答案:图像中有多个可见的物体,包括天空中飞翔的彩色风筝。因此答案是:[风筝]
  5. 找出所有用于携带东西的物体。答案:图像中有一个背包,可以用来携带东西。因此答案是:[背包]
    请添加图片描述
    第二部分(办公桌场景):
    标题:
  • 两台电脑放在桌子上方。
  • 两台电脑放在一个大的木质电脑桌上。
  • 一张有键盘、笔记本电脑和显示器的桌子。
  • 一台电脑显示器旁边有一台键盘、笔记本电脑和鼠标。
  • 一台带有外部键盘、鼠标、电话和照片的笔记本电脑。

物体:

  • 椅子、人、电视、手机、杯子、笔记本电脑、鼠标、键盘

描述:
图像显示了一张桌子上放着各种电脑配件。桌子上有两台电脑,看起来都连接了外部键盘。除了电脑外,桌子上还有一台笔记本电脑、电脑显示器和鼠标。桌子上还有一部手机和一张照片。这张桌子似乎是木制的,场景中没有其他可见的物体或人。

查询与回答:

  1. 我如何打电话?答案:图像中有键盘、人、椅子、笔记本电脑、鼠标、杯子、手机和电视。要打电话,使用桌上的手机。因此答案是:[手机]
  2. 找出图像中的所有电子设备。答案:图像中有键盘、笔记本电脑、鼠标、电脑显示器、手机和电视。这些都是电子设备。因此答案是:[键盘、笔记本电脑、鼠标、电脑显示器、手机、电视]
  3. 找出所有可用于打字的物体。答案:图像中有键盘、笔记本电脑和外部键盘。这些都可以用来打字。因此答案是:[键盘、笔记本电脑、外部键盘]
  4. 你能找到任何黑色的物体吗?答案:图像中有键盘、人、椅子、笔记本电脑、鼠标、杯子、手机和电视。外部键盘和电脑鼠标是黑色的。因此答案是:[外部键盘、鼠标]
  5. 找出所有矩形形状的物体。答案:图像中有键盘、鼠标、电脑显示器、手机和电视。其中,电脑显示器和笔记本电脑可以被认为是矩形的。因此答案是:[电脑显示器、笔记本电脑]

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com