简单网页制作工具_但无法上网_扬州网站推广公司_百度竞价查询

2025/2/1 12:46:52 来源：https://blog.csdn.net/guzhao9901/article/details/143753429 浏览: 次关键词：简单网页制作工具_但无法上网_扬州网站推广公司_百度竞价查询

大模型学习笔记------BLIP模型的再思考

- 1、BLIP推理---如何进行“图生文”
- 2、BLIP推理---如何进行视觉问答（Visual Question Answering, VQA）
- 3、BLIP推理---如何进行图文检索（Image-text retrieval）任务
- 4、总结

上一篇文章上文中讲解了 BLIP（Bootstrapping Language-Image Pretraining）模型的网络结构与相关的训练技巧。本文将再自己其他方面的思考进行讲解。

1、BLIP推理—如何进行“图生文”

在上篇文章中讲到了BLIP可以完成图像描述生成（Image Caption）任务（“图生文”），那么如何完成这个任务呢？其实完成这个任务只需要BLIP模型中的两个模块即可，即视觉编码器（lmage Encoder）与视觉-文本解码器（image-grounded text decoder），具体如下所示：
在这里插入图片描述

这也很好理解，“图生文”任务肯定是由图像生成文字，那必然有生成模块和图像编码的过程。而且这需要这两个模块就可以。
但是这里面还有一个问题，BLIP模块进行“图生文”任务需不需要Prompt，也就是是否需要提示词。我认为可以有也可以没有，因为算法的设计使得模型在理解图像内容的同时，也能够生成对应的文本描述。这种架构的灵活性使得模型能够适应不同的输入方式。虽然在没有 prompt 的情况下模型仍然可以生成文本，但使用 prompt 可以提高生成文本的相关性和准确性。

2、BLIP推理—如何进行视觉问答（Visual Question Answering, VQA）

如何完成视觉问答（VQA）任务呢？完成这个任务需要BLIP模型中的视觉编码器（lmage Encoder）、视觉-文本编码器（image-grounded text encoder）与视觉-文本解码器（image-grounded text decoder）。通过视觉编码器和视觉-文本编码器建立图像与文本（问题）的关系，将图像与问题融合后的特征输入到视觉-文本解码器中并生成相应的文本。具体如下所示：
在这里插入图片描述

3、BLIP推理—如何进行图文检索（Image-text retrieval）任务

如何完成图文检索（Image-text retrieval）任务呢？其实这个任务与CLIP几乎一摸一样，其实就是进行图像与文本的相似度计算，如果不明白的话，可以查看在以前文章中对CLIP模型的讲解。具体如下所示
在这里插入图片描述
其实这个任务或是分类任务完全可以使用CLIP模型，CLIP相对于BLIP模型更加简便，训练难度更低，对硬件的要求也更低。

4、总结

本文主要是对上一篇文章的补充，如果需要其他讨论的问题可以再评论区进行探讨。同时，如果我的想法有瑕疵也希望各位指教。

简单网页制作工具_但无法上网_扬州网站推广公司_百度竞价查询

大模型学习笔记------BLIP模型的再思考

1、BLIP推理—如何进行“图生文”

2、BLIP推理—如何进行视觉问答（Visual Question Answering, VQA）

3、BLIP推理—如何进行图文检索（Image-text retrieval）任务

4、总结

最新新闻

热搜词