您的位置:首页 > 房产 > 建筑 > 简单网页制作工具_但无法上网_扬州网站推广公司_百度竞价查询

简单网页制作工具_但无法上网_扬州网站推广公司_百度竞价查询

2025/2/1 12:46:52 来源:https://blog.csdn.net/guzhao9901/article/details/143753429  浏览:    关键词:简单网页制作工具_但无法上网_扬州网站推广公司_百度竞价查询
简单网页制作工具_但无法上网_扬州网站推广公司_百度竞价查询

大模型学习笔记------BLIP模型的再思考

    • 1、BLIP推理---如何进行“图生文”
    • 2、BLIP推理---如何进行视觉问答(Visual Question Answering, VQA)
    • 3、BLIP推理---如何进行图文检索(Image-text retrieval)任务
    • 4、总结

     上一篇文章上文中讲解了 BLIP(Bootstrapping Language-Image Pretraining)模型的网络结构与相关的训练技巧。本文将再自己其他方面的思考进行讲解。

1、BLIP推理—如何进行“图生文”

    在上篇文章中讲到了BLIP可以完成图像描述生成(Image Caption)任务(“图生文”),那么如何完成这个任务呢?其实完成这个任务只需要BLIP模型中的两个模块即可,即视觉编码器(lmage Encoder)与视觉-文本解码器(image-grounded text decoder),具体如下所示:
在这里插入图片描述

    这也很好理解,“图生文”任务肯定是由图像生成文字,那必然有生成模块和图像编码的过程。而且这需要这两个模块就可以。
    但是这里面还有一个问题,BLIP模块进行“图生文”任务需不需要Prompt,也就是是否需要提示词。我认为可以有也可以没有,因为算法的设计使得模型在理解图像内容的同时,也能够生成对应的文本描述。这种架构的灵活性使得模型能够适应不同的输入方式。虽然在没有 prompt 的情况下模型仍然可以生成文本,但使用 prompt 可以提高生成文本的相关性和准确性。

2、BLIP推理—如何进行视觉问答(Visual Question Answering, VQA)

    如何完成视觉问答(VQA)任务呢?完成这个任务需要BLIP模型中的视觉编码器(lmage Encoder)、视觉-文本编码器(image-grounded text encoder)与视觉-文本解码器(image-grounded text decoder)。通过视觉编码器和视觉-文本编码器建立图像与文本(问题)的关系,将图像与问题融合后的特征输入到视觉-文本解码器中并生成相应的文本。具体如下所示:
在这里插入图片描述

3、BLIP推理—如何进行图文检索(Image-text retrieval)任务

    如何完成图文检索(Image-text retrieval)任务呢?其实这个任务与CLIP几乎一摸一样,其实就是进行图像与文本的相似度计算,如果不明白的话,可以查看在以前文章中对CLIP模型的讲解。具体如下所示
在这里插入图片描述
    其实这个任务或是分类任务完全可以使用CLIP模型,CLIP相对于BLIP模型更加简便,训练难度更低,对硬件的要求也更低。

4、总结

    本文主要是对上一篇文章的补充,如果需要其他讨论的问题可以再评论区进行探讨。同时,如果我的想法有瑕疵也希望各位指教。

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com