您的位置:首页 > 娱乐 > 八卦 > 装饰公司哪家口碑好_今天的新闻内容摘抄30字_2023网站推广入口_优化软件seo排名

装饰公司哪家口碑好_今天的新闻内容摘抄30字_2023网站推广入口_优化软件seo排名

2025/4/27 23:45:13 来源:https://blog.csdn.net/Jamence/article/details/147163432  浏览:    关键词:装饰公司哪家口碑好_今天的新闻内容摘抄30字_2023网站推广入口_优化软件seo排名
装饰公司哪家口碑好_今天的新闻内容摘抄30字_2023网站推广入口_优化软件seo排名

请添加图片描述

What Large Language Models Bring to Text-rich VQA?

➡️ 论文标题:What Large Language Models Bring to Text-rich VQA?
➡️ 论文作者:Xuejing Liu, Wei Tang, Xinzhe Ni, Jinghui Lu, Rui Zhao, Zechao Li, Fei Tan
➡️ 研究机构: SenseTime Research、Nanjing University of Science and Technology、Shenzhen International Graduate School, Tsinghua University、ByteDance Inc.
➡️ 问题背景:文本丰富的视觉问答(Text-rich VQA)任务要求模型不仅理解图像,还要识别图像中的文本。当前,大多数研究通过训练多模态大语言模型(MLLMs)来解决这一问题,但这些模型在文本丰富的VQA任务中表现不佳,主要因为严重的幻觉问题和过拟合。
➡️ 研究动机:研究团队旨在探讨大语言模型(LLMs)在解决文本丰富的VQA任务中的优势和瓶颈。通过分离视觉和语言模块,利用外部OCR模型识别图像中的文本,并将这些文本作为上下文输入到LLMs中,研究团队希望评估这种方法的有效性,并为未来的模型设计提供指导。
➡️ 方法简介:研究团队提出了一种无需额外训练的方法,通过结合OCR模型和LLMs来解决文本丰富的VQA任务。具体来说,OCR模型用于从图像中提取文本,而LLMs则利用这些文本和上下文示例来生成答案。此外,研究团队还探讨了这种方法在不同数据集上的表现,并分析了不同规模的LLMs和不同质量的OCR结果对性能的影响。
➡️ 实验设计:研究团队在四个文本丰富的VQA数据集上进行了实验,包括DocVQA、OCRVQA、StVQA和TextVQA。实验设计了不同规模的LLMs、不同质量的OCR结果以及不同类型的MLLMs,以全面评估模型在不同条件下的表现。实验结果表明,结合OCR模块的LLMs在文本丰富的VQA任务中表现出色,尤其是在DocVQA和OCRVQA数据集上。此外,研究还发现,提高OCR结果的质量对VQA性能的提升有显著影响,而不同规模的LLMs在性能提升上存在差异。

AMBER: An LLM-free Multi-dimensional Benchmark for MLLMs Hallucination Evaluation

➡️ 论文标题:AMBER: An LLM-free Multi-dimensional Benchmark for MLLMs Hallucination Evaluation
➡️ 论文作者:Junyang Wang, Yuhang Wang, Guohai Xu, Jing Zhang, Yukai Gu, Haitao Jia, Jiaqi Wang, Haiyang Xu, Ming Yan, Ji Zhang, Jitao Sang
➡️ 研究机构: 北京交通大学 (Beijing Jiaotong University)、阿里巴巴集团 (Alibaba Group)、鹏程实验室 (Peng Cheng Lab)
➡️ 问题背景:当前的多模态大语言模型(MLLMs)在多模态任务中取得了显著进展,但这些模型在生成内容时经常出现与给定图像不一致的情况,即“幻觉”(hallucinations),这可能导致有害后果。因此,评估MLLMs的幻觉问题对于模型改进和实际应用部署变得越来越重要。
➡️ 研究动机:现有的幻觉评估方法存在高成本(如依赖人工或高级大语言模型)和评估维度不足(如任务类型和幻觉类型)的问题。为了克服这些问题,研究团队提出了一种无需大语言模型的多维度基准AMBER,用于评估MLLMs在生成任务和判别任务中的幻觉问题。
➡️ 方法简介:研究团队构建了AMBER基准,该基准包含了一系列高质量的图像及其详细的注释,涵盖了存在、属性和关系三种类型的幻觉。基于AMBER,研究团队设计了一个低成本且高效的评估流程,用于评估主流MLLMs的幻觉问题,并提出了减少幻觉的指导建议。
➡️ 实验设计:研究团队在AMBER基准上对九个主流MLLMs进行了多维度的幻觉评估,包括GPT-4V。评估指标包括CHAIR、Cover、Hal和Cog,用于生成任务;以及Accuracy、Precision、Recall和F1,用于判别任务。实验结果表明,尽管GPT-4V在生成任务和判别任务中表现最佳,但所有模型在生成任务中仍存在幻觉问题,且在判别任务中更倾向于给出肯定回答,容易被幻觉内容误导。

SPHINX: The Joint Mixing of Weights, Tasks, and Visual Embeddings for Multi-modal Large Language Models

➡️ 论文标题:SPHINX: The Joint Mixing of Weights, Tasks, and Visual Embeddings for Multi-modal Large Language Models
➡️ 论文作者:Ziyi Lin, Chris Liu, Renrui Zhang, Peng Gao, Longtian Qiu, Han Xiao, Han Qiu, Chen Lin, Wenqi Shao, Keqin Chen, Jiaming Han, Siyuan Huang, Yichi Zhang, Xuming He, Hongsheng Li, Yu Qiao
➡️ 研究机构: Shanghai AI Laboratory, MMLab, CUHK, ShanghaiTech University
➡️ 问题背景:当前的多模态大语言模型(MLLMs)在多种任务中展现了卓越的能力,如视觉-语言对齐、图像到文本生成等。然而,这些模型在处理高分辨率图像时面临挑战,尤其是在细粒度视觉理解方面。此外,现有的MLLMs通常在特定任务上表现良好,但在多任务综合能力上存在局限。
➡️ 研究动机:为了进一步提升MLLMs的多任务综合能力和细粒度视觉理解能力,研究团队提出了SPHINX,一个通过模型权重、调优任务和视觉嵌入的联合混合策略来增强多模态理解能力的模型。SPHINX旨在通过更灵活的训练策略和更丰富的视觉表示,提高模型在多种应用场景中的表现。
➡️ 方法简介:研究团队提出了一个两阶段的训练范式:第一阶段进行视觉-语言对齐的预训练,第二阶段进行视觉指令跟随的微调。在预训练阶段,团队通过解冻整个大语言模型(LLM)并引入来自不同领域的数据来增强模型的跨模态学习能力。在微调阶段,团队通过混合多种任务和视觉嵌入来提升模型的多任务综合能力。此外,团队还提出了一种混合不同尺度和高分辨率子图像的方法,以更好地捕捉高分辨率图像中的细粒度语义。
➡️ 实验设计:研究团队在多个公开数据集上进行了实验,包括视觉-语言理解(VLP)和图像到图像(I2I)任务。实验设计了多种任务(如视觉问答、区域级理解、文档布局检测、人体姿态估计等),以全面评估模型在不同任务上的表现。实验结果表明,SPHINX在多种任务上均表现出色,尤其是在细粒度视觉理解方面。

Direct Preference Optimization for Neural Machine Translation with Minimum Bayes Risk Decoding

➡️ 论文标题:Direct Preference Optimization for Neural Machine Translation with Minimum Bayes Risk Decoding
➡️ 论文作者:Guangyu Yang, Jinghong Chen, Weizhe Lin, Bill Byrne
➡️ 研究机构: University of Cambridge
➡️ 问题背景:最小贝叶斯风险(MBR)解码可以显著提高多语言大语言模型(MLLMs)的翻译性能,但其计算成本高昂。研究团队提出了一种基于直接偏好优化(DPO)的方法,通过少量单语微调集,使MLLMs在单次解码过程中达到与MBR解码相当的性能,而无需额外的推理计算。
➡️ 研究动机:尽管MBR解码能显著提升翻译性能,但其计算成本和延迟较高。研究团队旨在通过DPO技术微调MLLMs,使其在单次解码过程中达到与MBR解码相当的性能,从而降低计算成本。
➡️ 方法简介:研究团队提出了一种自监督微调方法,该方法基于DPO技术,使用MBR解码生成的偏好数据集对MLLMs进行微调。具体来说,通过MBR解码生成一系列翻译假设,并根据贝叶斯风险对这些假设进行排序,形成偏好数据集。DPO算法利用这些偏好数据集,使模型更倾向于选择高排名的翻译假设。
➡️ 实验设计:研究团队在WMT21新闻翻译测试集、WMT22通用翻译测试集和IWSLT 2017测试集上进行了实验。实验设计了不同的偏好对选择策略(如最佳-最差对、最佳-中等-最差对、连续对和带步长的连续对),以及不同的假设集大小(如8、16和32),以全面评估模型在不同条件下的表现。实验结果表明,DPO MBR微调后的模型在单次解码过程中达到了与MBR解码相当的性能,且在多个测试集上显著优于未经过DPO微调的基线模型。

On the Calibration of Multilingual Question Answering LLMs

➡️ 论文标题:On the Calibration of Multilingual Question Answering LLMs
➡️ 论文作者:Yahan Yang, Soham Dan, Dan Roth, Insup Lee
➡️ 研究机构: University of Pennsylvania, IBM Research
➡️ 问题背景:多语言预训练大型语言模型(LLMs)在问答(QA)任务中表现出色,但在不同语言之间的零样本迁移中,其置信度校准性能较差。尽管这些模型在多种多语言基准测试中取得了高准确率,但它们在非英语语言上的置信度校准性能往往不佳,这可能对安全关键应用(如医疗、自动驾驶和金融)产生严重影响。
➡️ 研究动机:尽管多语言LLMs在多种任务中表现出色,但其在不同语言之间的置信度校准性能尚未得到充分研究。为了填补这一研究空白,本文对多语言LLMs在问答任务中的置信度校准性能进行了全面评估,并探讨了提高校准性能的方法,包括后处理方法、正则化方法和上下文学习(ICL)。
➡️ 方法简介:研究团队通过在多个数据集上进行广泛的实验,评估了不同架构和规模的多语言LLMs在问答任务中的置信度校准性能。实验涵盖了从110M到7B参数的编码器-仅模型、编码器-解码器模型和解码器-仅模型,并测试了不同语言(包括高资源和低资源语言)的校准性能。此外,研究还探讨了温度缩放、标签平滑和数据增强等方法对校准性能的影响。
➡️ 实验设计:实验在XQuAD、MLQA和TyDiQA等多个数据集上进行,评估了模型在不同设置下的校准性能,包括同分布、异分布和跨语言迁移设置。研究团队还通过后处理方法(如温度缩放)和正则化方法(如标签平滑)来改进模型的校准性能,并探讨了上下文学习(ICL)在多语言QA任务中的应用。实验结果表明,温度缩放和少量翻译数据的加入可以显著提高模型的校准性能,尤其是在低资源语言上。

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com