您的位置:首页 > 汽车 > 新车 > 墨子学院seo_微信公众号服务平台_必应站长平台_青岛网站优化

墨子学院seo_微信公众号服务平台_必应站长平台_青岛网站优化

2025/1/12 7:44:08 来源:https://blog.csdn.net/qq_51659249/article/details/143569149  浏览:    关键词:墨子学院seo_微信公众号服务平台_必应站长平台_青岛网站优化
墨子学院seo_微信公众号服务平台_必应站长平台_青岛网站优化

Abstract

从遥感图像中定位目标在实际应用中有很大的用处。 参考图像分割的目的是分割出给定表达所指向的对象,这在自然图像中得到了广泛的研究。我们为这项任务创建了一个名为RefSegRS的新数据集,使我们能够评估不同的方法。我们提出了一种语言引导的跨尺度增强(LGCE)模块,该模块利用语言特征自适应增强多尺度视觉特征,整合深度和浅度特征。

Introduction

创建了一个新的数据集RefSegRS,来自skyscape数据集的图像和像素级注释之上。 RefSegRS数据集是通过设计各种引用表达式并自动生成相应的掩码来构建的。 表达式包括类别、属性或与其他实体的空间关系,因为这些是最终用户经常用来引用对象的特征。这个数据集合由4420 image-language-label 三元组组成。

我们在许多基于自然图像的现有的方法进行评估,发现在RefSegRS数据集上效果并不是那么好,主要是因为在自然图像中物体的size比较大,但是在遥感图像中,object只有几个像素,看起来又小又分散。

本篇文章是基于LAVT提出的,提出了一个基于transformer的特性增强模块----(LGCE)模块。

深层特征和浅层特征有两个关键点。

  • 深层特征一般来自较深的网络特征提取,深度特征具有较高的抽象性,每个像素都具有较强的表达能力,便于将其划分为不同的类。
  • 浅层特征来自较低的网络层次特征提取,通常表示了图像的局部细节信息,虽然浅层特征具有较高的空间分辨率,使得识别小物体成为可能,但其语义水平相对较低。 考虑到以上两点,我们设计了一个模块,以语言特征为导向,将深特征与浅特征相结合,更好地分割小物体。

设计了一个模块,以语言特征为导向,将深特征与浅特征相结合,更好地分割小物体。

DATASET CONSTRUCTION

A. Image Collection

通过裁剪来自skyscape数据集的图块来收集图像,该数据集由16个红绿蓝(RGB)块组成。 每个贴图的大小为5616 × 3744像素,空间分辨率为13厘米。 所有像素分为20类:低植被、铺装道路、非铺装道路、铺装停车位、非铺装停车位、自行车道、人行道、出入口、危险区域、车道标线、建筑物、汽车、拖车、面包车、卡车、大型卡车、公共汽车、杂物、不透水路面、树木。 对于那些标记为车道标记的标签,创建者还提供了它们的特定类型,如虚线、延长线和小虚线,但在我们的示例中不考虑这些标签。 为了确保每个图像包含足够的对象和对象间关系,我们使用宽度为600像素的滑动窗口将图像块裁剪为1200 × 1200像素的图像。 考虑到深度神经网络的输入大小,我们进一步将其下采样到512 × 512像素。

B. Referring Expression Generation

C. Mask Generation

我们最终获得了一个由285个场景中的4420个图像语言标签三元组组成的数据集

IV. METHODOLOGY

伴随这些图像的表达式通常包含有关目标物体大小的信息。例如,包含汽车和道路标记的文本往往指的是小物体,而包含建筑物的文本通常与大物体有关。小目标的准确识别需要更复杂的多尺度特征融合模块,该模块将输入的文本表达式考虑在内。

LGCE Module

然以将融合后的特征拆分成两个特征分量

Cross-scale fusion

拆分交叉融合后的特征向量

再将他们连接起来送入后续的解码层,然后我们用分割头来预测掩码。

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com