您的位置：首页 > 财经 > 金融 > 【多模态大模型】的正确打开方式——图片

【多模态大模型】的正确打开方式——图片

2025/4/13 3:03:08 来源：https://blog.csdn.net/Deng_Xian_Sheng/article/details/141820139 浏览: 次关键词：【多模态大模型】的正确打开方式——图片

早期痛点

识别图片中的物体，早期可以使用Yolo
但是缺点也很明显：

训练时间长
成本高
泛华性能差
通用识别领域覆盖有限

优点：

特殊领域识别

大模型出现

大模型出现后，一些大模型对接了图片识别相关的模型，实现了图片识别，然后转换成文本再返回给大模型。

这样，基本实现了识别图片中存在的物体，但是仍然无法代替一般的Yolo应用，因为它无法提供物体在图片中的坐标信息。

因为图片模型“转换成文本再返回给大模型”，丢失了很多信息，无法完成这样的需求。

多模态大模型如何代替Yolo

主要逻辑是这样的：

建立坐标系
使用prompt规范模型输出

建立坐标系

先对图片进行预处理，在图片上覆盖一层浅白色的遮罩
然后用绿色的线条，将图片划分为网格，比如18x18
然后在网格的边缘添加红色的数字代表坐标
输出处理后的图片

使用prompt规范模型输出

要求模型输出json
要求识别图片中特定物体，然后输出其坐标系

有时间我会更新ipynb到文章

Deng-Xian-Sheng. (2024). 【多模态大模型】的正确打开方式——图片 [The correct way to open [multimodal large models] - pictures]. CSDN. https://blog.csdn.net/Deng_Xian_Sheng/article/details/141820139

在这里插入图片描述

版权声明:

本网仅为发布的内容提供存储空间，不对发表、转载的内容提供任何形式的保证。凡本网注明“来源：XXX网络”的作品，均转载自其它媒体，著作权归作者所有，商业转载请联系作者获得授权，非商业转载请注明出处。

我们尊重并感谢每一位作者，均已注明文章来源和作者。如因作品内容、版权或其它问题，请及时与我们联系，联系邮箱：809451989@qq.com，投稿邮箱：809451989@qq.com

最新新闻

热搜词

Npoi XSSF格式删除图片为Avalonia应用添加图标 VUE3+Mapbox-GL 实现鼠标绘制矩形功能的详细代码和讲解百度推出端到端语音大模型，支持方言、可打断、电话语音成本砍半；雷神 AI 眼镜发布：语音助理+摄像头，1799 元起丨日报三、首页设置与加载天地图 Linux-常用命令（3）

声明：本站所有新闻及新闻图片来源于其他网站，如有侵权，请及时联系我们！

客户服务 | 关于我们 | 版权声明

版权所有：

Copyright 2024 尧图网 All Rights Reserved.QQ:809451989