文章目录~
- 1.LLM Internal States Reveal Hallucination Risk Faced With a Query
- 2.Fine-Tuning with Divergent Chains of Thought Boosts Reasoning Through Self-Correction in Language Models
- 3.Investigating Decoder-only Large Language Models for Speech-to-text Translation
- 4.Raw Text is All you Need: Knowledge-intensive Multi-turn Instruction Tuning for Large Language Model
- 5.Mast Kalandar at SemEval-2024 Task 8: On the Trail of Textual Origins: RoBERTa-BiLSTM Approach to Detect AI-Generated Text
- 6.Large Language Models as Evaluators for Scientific Synthesis
- 7.Learning to Reduce: Towards Improving Performance of Large Language Models on Structured Data
- 8.LLM-Select: Feature Selection with Large Language Models
- 9.Ensuring Responsible Sourcing of Large Language Model Training Data Through Knowledge Graph Comparison
- 10.Neurocache: Efficient Vector Retrieval for Long-range Language Modeling
- 11.RankRAG: Unifying Context Ranking with Retrieval-Augmented Generation in LLMs
- 12.Generative Monoculture in Large Language Models
- 13.Survey on Knowledge Distillation for Large Language Models: Methods, Evaluation, and Application
- 14.Improving Multilingual Instruction Finetuning via Linguistically Natural and Diverse Datasets
- 15.Ground Every Sentence: Improving Retrieval-Augmented LLMs with Interleaved Reference-Claim Generation
- 16.Show Less, Instruct More: Enriching Prompts with Definitions and Guidelines for Zero-Shot NER
- 17.Large Language Models are Zero-Shot Recognizers for Activities of Daily Living
- 18.EconNLI: Evaluating Large Language Models on Economics Reasoning
- 19.Calibrated Large Language Models for Binary Question Answering
- 20.Pron vs Prompt: Can Large Language Models already Challenge a World-Class Fiction Author at Creative Text Writing?
- 21.BERGEN: A Benchmarking Library for Retrieval-Augmented Generation
- 22.M2QA: Multi-domain Multilingual Question Answering
- 23.Face4RAG: Factual Consistency Evaluation for Retrieval Augmented Generation in Chinese
- 24.Step-Controlled DPO: Leveraging Stepwise Error for Enhanced Mathematical Reasoning
- 25.A Comparative Study of Quality Evaluation Methods for Text Summarization
- 26.Large Language Models Struggle in Token-Level Clinical Named Entity Recognition
- 27.Financial Knowledge Large Language Model
- 28.From RAG to RICHES: Retrieval Interlaced with Sequence Generation
- 29.Iterative Data Augmentation with Large Language Models for Aspect-based Sentiment Analysis
- 30.LLM-Generated Natural Language Meets Scaling Laws: New Explorations and Data Augmentation Methods
- 31.LiteSearch: Efficacious Tree Search for LLM
1.LLM Internal States Reveal Hallucination Risk Faced With a Query
标题:LLM 内部状态揭示面对询问时的幻觉风险
author:Ziwei Ji, Delong Chen, Etsuko Ishii, Samuel Cahyawijaya, Yejin Bang, Bryan Wilie, Pascale Fung
date Time:2024-07-03
paper pdf:http://arxiv.org/pdf/2407.03282v1
摘要:
大型语言模型(LLM)的幻觉问题极大地限制了其可靠性和可信度。人类有一种自我意识过程,能让我们在面对询问时识别出自己不知道的东西。受此启发,我们的论文研究了 LLM 能否在生成响应之前估计自己的幻觉风险。我们从训练数据源和 15 种不同的自然语言生成(NLG)任务(跨越 700 多个数据集)两方面广泛分析了 LLM 的内部机制。我们的实证分析揭示了两个关键见解:(1) LLM 的内部状态表明他们是否在训练数据中看到过查询;(2) LLM 的内部状态表明他们是否有可能对查询产生幻觉。我们的研究探索了在 LLM 感知不确定性和幻觉风险中起关键作用的特定神经元、激活层和标记。通过探测估算器,我们利用 LLM 的自我评估,在运行时实现了 84.32% 的平均幻觉估算准确率。
2.Fine-Tuning with Divergent Chains of Thought Boosts Reasoning Through Self-Correction in Language Models
标题:利用发散思维链进行微调,通过语言模型的自我修正提高推理能力
author:Haritz Puerto, Tilek Chubakov, Xiaodan Zhu, Harish Tayyar Madabushi, Iryna Gurevych
date Time:2024-07-03
paper pdf:http://arxiv.org/pdf/2407.03181v1
摘要:
事实证明,要求大语言模型生成中间推理步骤是提高性能的有效方法。事实上,对这些中间推理步骤进行指令调整可提高模型性能。在这项工作中,我们提出了一种进一步提高性能的新方法,即要求模型在单个推理步骤中生成解决方案之前对多个推理链进行比较。我们称这种方法为 “发散推理”(Divergent CoT,DCoT)。我们发现,在 DCoT 数据集上进行指令调整,甚至可以提高更小的 LLM 性能,因此也更容易获得。通过一系列严格的实验,我们发现在 DCoT 上进行微调后,不同模型系列和规模(1.3B 到 70B)的性能都比 CoT 基准线有了持续提高。通过经验评估和人工评估的结合,我们还表明,这些性能提升源于模型在单个推理步骤中生成了多个不同的推理链,这表明语言模型中的自我修正功能是可行的。我们的代码和数据可通过 https://github.com/UKPLab/arxiv2024-divergent-cot 公开获取。
3.Investigating Decoder-only Large Language Models for Speech-to-text Translation
标题:研究用于语音到文本翻译的纯解码器大语言模型
author:Chao-Wei Huang, Hui Lu, Hongyu Gong, Hirofumi Inaguma, Ilia Kulikov, Ruslan Mavlyutov, Sravya Popuri
publish:Accepted to Interspeech 2024
date Time:2024-07-03
paper pdf:http://arxiv.org/pdf/2407.03169v1
摘要:
大型语言模型(LLMs)以其卓越的推理能力、通用性和跨领域的流畅性而著称,为增强语音相关任务提供了一条大有可为的途径。在本文中,我们的重点是将纯解码器 LLM 集成到语音到文本翻译(S2TT)任务中。我们提出了一种纯解码器架构,使 LLM 能够直接使用编码语音表示并生成文本翻译。此外,我们还研究了不同参数高效微调技术和任务表述的效果。我们的模型在 CoVoST 2 和 FLEURS 上取得了在无专有数据训练的模型中最先进的性能。我们还进行了分析,以验证我们提出的模型的设计选择,并为将 LLM 集成到 S2TT 带来启示。
4.Raw Text is All you Need: Knowledge-intensive Multi-turn Instruction Tuning for Large Language Model
标题:只需原始文本:大型语言模型的知识密集型多轮指令调整
author:Xia Hou, Qifeng Li, Jian Yang, Tongliang Li, Linzheng Chai, Xianjie Wu, Hangyuan Ji, Zhoujun Li, Jixuan Nie, Jingbo Dun, Wenfeng Song
publish:11 pages, 3 figures
date Time:2024-07-03
paper pdf:http://arxiv.org/pdf/2407.03040v1
摘要:
指令调整作为一种有效的技术,可以使大型语言模型(LLM)的输出与人类的偏好保持一致。但是,如何从原始文档中生成季节性多轮对话以进行指令调整仍需进一步探索。在本文中,我们提出了一个名为 R2S 的新框架,该框架利用对话逻辑 CoD 链指导大型语言模型(LLM)生成知识密集型多轮对话,用于指令调整。通过将来自开源数据集和特定领域网络抓取文档的原始文档整合到基准 K-BENCH,我们的研究覆盖了维基百科(英文)、科学(中文)和人工智能(中文)等多个领域。我们的方法首先确定当前对话的逻辑流,然后提示 LLM 生成关键短语,以寻找相关的回应内容。这种方法能够创建 G I NSTRUCT 指令数据集,在对话式交互中保留原始文档知识。利用该数据集,我们对 GLLM 进行了微调,该模型旨在将原始文档转化为结构化的多轮对话,从而为 SFT 模型注入全面的领域知识,以增强指令调整功能。这项工作标志着我们在改进 LLM 的适应性和有效性方面迈出了一大步,LLM 可以处理和生成各领域更准确、更贴近语境的回答。
5.Mast Kalandar at SemEval-2024 Task 8: On the Trail of Textual Origins: RoBERTa-BiLSTM Approach to Detect AI-Generated Text
标题:Mast Kalandar 在 SemEval-2024 的任务 8:追踪文本起源:检测人工智能生成文本的 RoBERTa-BiLSTM 方法
author:Jainit Sushil Bafna, Hardik Mittal, Suyash Sethia, Manish Shrivastava, Radhika Mamidi
publish:SemEval-2024
date Time:2024-07-03
paper pdf:http://arxiv.org/pdf/2407.02978v1
摘要:
大型语言模型(LLM)在生成对不同用户查询的流畅回复方面展现出了令人印象深刻的能力。然而,在新闻、教育和学术领域,人们开始担心这些文本可能会被滥用。SemEval 2024 引入了 "多生成器、多域和多语言黑盒机器生成文本检测 "任务,旨在开发用于识别机器生成文本和检测潜在滥用的自动化系统。在本文中,我们 i) 提出了一种基于 RoBERTa-BiLSTM 的分类器,旨在将文本分为两类:ii) 将我们的模型与基线方法进行比较研究,以评估其有效性。本文为自动文本检测系统在应对机器生成的文本滥用所带来的挑战方面的进步做出了贡献。在官方排行榜上,我们的架构以 80.83 的准确率在 125 个排名中名列第 46 位。
6.Large Language Models as Evaluators for Scientific Synthesis
标题:大型语言模型作为科学合成的评估工具
author:Julia Evans, Jennifer D’Souza, Sören Auer
publish:4 pages, forthcoming as part of the KONVENS 2024 proceedings
https://konvens-2024.univie.ac.at/
date Time:2024-07-03
paper pdf:http://arxiv.org/pdf/2407.02977v1
摘要:
我们的研究探讨了最先进的大语言模型(LLM)(如 GPT-4 和 Mistral)在评估科学摘要或更恰当地说科学综述的质量方面的能力,并将它们的评估结果与人类注释者的评估结果进行了比较。我们使用了一个数据集,其中包含 100 个研究问题以及 GPT-4 根据五篇相关论文的摘要所做的综述,并与人类质量评级进行了核对。这项研究评估了闭源 GPT-4 和开源 Mistral 模型对这些摘要进行评分并提供判断理由的能力。初步结果表明,LLM 可以提供与质量评分在一定程度上相匹配的逻辑解释,但更深入的统计分析显示,LLM 与人类评分之间的相关性很弱,这表明了 LLM 在科学综合评价方面的潜力和目前的局限性。
7.Learning to Reduce: Towards Improving Performance of Large Language Models on Structured Data
标题:学会减少:提高大型语言模型在结构化数据上的性能
author:Younghun Lee, Sungchul Kim, Ryan A. Rossi, Tong Yu, Xiang Chen
publish:ICML 2024 Workshop on Long-Context Foundation Models, Vienna, Austria
- arXiv admin note: substantial text overlap with arXiv:2402.14195
date Time:2024-07-03
paper pdf:http://arxiv.org/pdf/2407.02750v1
摘要:
大型语言模型(LLMs)已经在各种下游任务中取得了令人满意的性能,但现有工作表明,结构化数据推理对 LLMs 来说具有挑战性。这是因为 LLM 要么需要理解长结构化数据,要么需要在推理前选择最相关的证据,而这两种方法都并非易事。本文提出了一个名为 “学习缩减”(Learning to Reduce)的框架,该框架通过 “策略学习”(On-Policy Learning)对语言模型进行微调,以生成输入结构化数据的缩减版本。与 GPT-4 等最先进的 LLM 相比,Learning to Reduce 不仅在减少输入方面表现出色,而且在不同的数据集上显示出通用性。我们进一步表明,利用我们的框架对模型进行微调,可以帮助 LLM 在表格质量保证任务中发挥更好的性能,尤其是在上下文较长的情况下。
8.LLM-Select: Feature Selection with Large Language Models
标题:LLM-Select:使用大型语言模型进行特征选择
author:Daniel P. Jeong, Zachary C. Lipton, Pradeep Ravikumar
publish:Preprint
date Time:2024-07-02
paper pdf:http://arxiv.org/pdf/2407.02694v1
摘要:
在本文中,我们展示了大型语言模型(LLM)的惊人能力:只需输入特征名称和预测任务描述,它们就能选择最具预测性的特征,其性能可与数据科学的标准工具相媲美。值得注意的是,这些模型在各种查询机制中都表现出了这种能力。例如,我们在没有任何额外上下文的情况下,零点提示 LLM 输出一个特征(如 “血压”)在预测感兴趣的结果(如 “心力衰竭”)时的数字重要性分数。特别是,我们发现最新的模型,如 GPT-4,无论查询机制如何,无论提示策略如何,都能始终如一地识别出最具预测性的特征。我们通过在真实世界数据上进行大量实验来说明这些发现,结果表明,尽管从未查看过下游训练数据,但基于 LLM 的特征选择始终能取得与数据驱动方法(如 LASSO)相媲美的强大性能。我们的研究结果表明,LLM 不仅有助于选择最佳特征进行训练,还有助于决定首先收集哪些特征。这可能会使医疗保健等领域的从业人员受益,因为在这些领域,收集高质量数据的成本很高。
9.Ensuring Responsible Sourcing of Large Language Model Training Data Through Knowledge Graph Comparison
标题:通过知识图谱比较确保负责任地获取大型语言模型训练数据
author:Devam Mondal, Carlo Lipizzi
date Time:2024-07-02
paper pdf:http://arxiv.org/pdf/2407.02659v1
摘要:
鉴于最近出版商、报纸和其他受版权保护的语料库创建者对大型语言模型(LLM)开发者提出的剽窃指控,我们提出了一种新颖的系统,即剽窃检测系统的变体,用于评估知识源是否被用于大型语言模型的训练或微调。与当前的方法不同,我们采用了一种使用资源描述框架(RDF)三元组的方法,从源文件和该文件的 LLM 续篇中创建知识图谱。然后使用余弦相似度分析这些图的内容,并使用显示同构程度的规范化图编辑距离分析这些图的结构。传统的系统侧重于源语料库和目标语料库之间的内容匹配和关键词识别,而我们的方法则不同,它侧重于观点之间的关系及其与其他观点之间的组织关系,因此能够对相似性进行更广泛的评估,从而对源文档和 LLM 续篇之间的相似性进行更准确的比较。此外,我们的方法不需要访问 LLM 指标(如在封闭的大型语言建模 "黑盒 "系统中可能无法获得的困惑度)以及训练语料库。我们的系统原型可以在超链接的 GitHub 存储库中找到。
10.Neurocache: Efficient Vector Retrieval for Long-range Language Modeling
标题:神经缓存:用于远程语言建模的高效向量检索
author:Ali Safaya, Deniz Yuret
publish:Long paper, published at the main conference NAACL’24
date Time:2024-07-02
paper pdf:http://arxiv.org/pdf/2407.02486v1
摘要:
本文介绍了 Neurocache,这是一种利用外部向量缓存来存储大型语言模型(LLM)过去状态,从而扩展其有效上下文大小的方法。与最近的向量检索方法一样,Neurocache 使用高效的 k-nearest-neighbor (kNN) 算法检索相关的过去状态,并将其纳入关注过程。Neurocache 通过以下方式改进了之前的方法:(1) 存储压缩状态,从而减少缓存大小;(2) 对每个标记执行一次检索操作,从而提高推理速度;(3) 将检索窗口扩展到邻近状态,从而提高语言建模和下游任务的准确性。我们的实验表明,Neurocache 对于从头开始训练的模型和预先训练的模型(如 Llama2-7B 和 Mistral-7B)在使用缓存机制增强后都非常有效。我们还将 Neurocache 与文本检索方法进行了比较,结果表明,Neurocache 在单文档问题解答和少量学习任务方面都有所改进。我们提供了源代码: https://github.com/alisafaya/neurocache
11.RankRAG: Unifying Context Ranking with Retrieval-Augmented Generation in LLMs
标题:RankRAG:将 LLM 中的上下文排序与检索增强生成统一起来
author:Yue Yu, Wei Ping, Zihan Liu, Boxin Wang, Jiaxuan You, Chao Zhang, Mohammad Shoeybi, Bryan Catanzaro
date Time:2024-07-02
paper pdf:http://arxiv.org/pdf/2407.02485v1
摘要:
大型语言模型(LLM)通常在检索增强生成(RAG)中利用来自检索器的前 k 个上下文。在这项工作中,我们提出了一个新颖的指令微调框架 RankRAG,该框架对单个 LLM 进行指令微调,以实现 RAG 中上下文排序和答案生成的双重目的。特别是,通过在训练混合数据中添加一小部分排名数据,经过指令调整的 LLM 的效果出奇地好,而且优于现有的专家排名模型,包括专门在大量排名数据上经过微调的相同 LLM。为了生成模型,我们将我们的模型与许多强大的基准进行了比较,包括 GPT-4-0613、GPT-4-turbo-2024-0409 和 ChatQA-1.5,后者是一个开源模型,在 RAG 基准上具有最先进的性能。具体来说,在九个知识密集型基准上,我们的 Llama3-RankRAG 明显优于 Llama3-ChatQA-1.5 和 GPT-4 模型。此外,它在生物医学领域的五个 RAG 基准上的表现也与 GPT-4 不相上下,无需对生物医学数据进行指令微调,这证明了它在新领域的超强通用能力。
12.Generative Monoculture in Large Language Models
标题:大型语言模型中的生成单一文化
author:Fan Wu, Emily Black, Varun Chandrasekaran
date Time:2024-07-02
paper pdf:http://arxiv.org/pdf/2407.02209v1
摘要:
我们引入了{/em generative monoculture},这是一种在大型语言模型(LLMs)中观察到的行为,其特点是相对于特定任务的可用训练数据,模型输出的多样性明显缩小:例如,对于褒贬不一的书籍,只生成正面的书评。虽然在某些情况下,生成式单一语言会提高性能(例如,LLMs 更经常地生成高效代码),但在另一些情况下,其危险性会加剧(例如,LLMs 拒绝分享不同意见)。随着 LLM 越来越多地应用于教育和网络搜索等影响力较大的领域,谨慎维护 LLM 输出的多样性对于确保长期保留各种事实和观点至关重要。我们通过对书评和代码生成任务的分析,实验证明了生成单一文化的普遍性,并发现改变采样或提示策略等简单的应对措施不足以缓解这种行为。此外,我们的研究结果表明,产生单一文化的根本原因很可能就在 LLM 的排列过程中,这表明有必要开发微调范式,以保持或促进多样性。
13.Survey on Knowledge Distillation for Large Language Models: Methods, Evaluation, and Application
标题:大型语言模型知识提炼调查:方法、评估和应用
author:Chuanpeng Yang, Wang Lu, Yao Zhu, Yidong Wang, Qian Chen, Chenlong Gao, Bingjie Yan, Yiqiang Chen
publish:28 pages
date Time:2024-07-02
paper pdf:http://arxiv.org/pdf/2407.01885v1
摘要:
大型语言模型(LLM)在各个领域都展现出了非凡的能力,吸引了学术界和工业界的极大兴趣。尽管 LLM 的性能令人印象深刻,但其庞大的体积和计算需求对实际部署提出了相当大的挑战,尤其是在资源有限的环境中。如何在保持准确性的同时压缩语言模型已成为研究的焦点。在各种方法中,知识蒸馏已成为提高推理速度而又不严重影响性能的有效技术。本文从方法、评估和应用三个方面进行了深入研究,探讨了专门为 LLM 量身定制的知识蒸馏技术。具体来说,我们将这些方法分为白盒知识提炼和黑盒知识提炼,以更好地说明它们之间的差异。此外,我们还探讨了不同蒸馏方法之间的评估任务和蒸馏效果,并提出了未来的研究方向。通过深入了解最新进展和实际应用,本调查报告为研究人员提供了宝贵的资源,为该领域的持续进步铺平了道路。
14.Improving Multilingual Instruction Finetuning via Linguistically Natural and Diverse Datasets
标题:通过语言自然和多样化的数据集改进多语言教学微调
author:Sathish Reddy Indurthi, Wenxuan Zhou, Shamil Chollampatt, Ravi Agrawal, Kaiqiang Song, Lingxiao Zhao, Chenguang Zhu
date Time:2024-07-01
paper pdf:http://arxiv.org/pdf/2407.01853v1
摘要:
大语言模型(LLM)的进步极大地增强了指令跟踪能力。然而,大多数指令微调(IFT)数据集以英语为主,限制了模型在其他语言中的表现。创建多语言 IFT 数据集的传统方法,如翻译现有的英语 IFT 数据集或通过模板将现有的 NLP 数据集转换为 IFT 数据集,很难捕捉语言的细微差别并确保提示(指令)的多样性。为了解决这个问题,我们提出了一种收集多语言 IFT 数据集的新方法,这种方法既能保持语言的自然性,又能确保提示的多样性。这种方法利用以英语为重点的 LLMs、单语语料库和评分功能来创建高质量、多样化的多语言 IFT 数据集。实验证明,使用这些 IFT 数据集进行微调的 LLM 在生成任务和判别任务中都有明显改善,这表明 LLM 在非英语语境中的语言理解能力得到了增强。具体来说,在多语言摘要任务中,使用我们的 IFT 数据集的 LLM 比使用基于翻译的数据集和基于模板的数据集进行微调的 LLM 分别提高了 17.57% 和 15.23%。
15.Ground Every Sentence: Improving Retrieval-Augmented LLMs with Interleaved Reference-Claim Generation
标题:接地每一句话:利用交错参考索赔生成改进检索增强型 LLM
author:Sirui Xia, Xintao Wang, Jiaqing Liang, Yifei Zhang, Weikang Zhou, Jiaji Deng, Fei Yu, Yanghua Xiao
publish:15 pages,2 figures
date Time:2024-07-01
paper pdf:http://arxiv.org/pdf/2407.01796v1
摘要:
检索增强生成(RAG)已被广泛用于增强知识密集型任务中的大型语言模型(LLM)。最近,归因文本生成(Attributed Text Generation,ATG)引起了越来越多的关注,它提供引文以支持模型在 RAG 中的响应,从而提高 LLM 生成内容的可信度并方便验证。之前的方法主要采用粗粒度归因,链接到段落级参考文献或提供段落级引文。然而,这些方法在可验证性方面仍有不足,并且需要一定的时间成本进行事实核查。本文提出了一种名为 ReClaim(Refer & Claim)的细粒度 ATG 方法,该方法一步步交替生成参考文献和答案。与传统的粗粒度归因不同,ReClaim 允许模型在长式问题解答任务中为每个答案句子添加句子级的细粒度引文。我们的实验包括各种训练和推理方法以及多个 LLM,验证了我们方法的有效性。
16.Show Less, Instruct More: Enriching Prompts with Definitions and Guidelines for Zero-Shot NER
标题:少展示,多指导:用零射速 NER 的定义和指南丰富提示内容
author:Andrew Zamai, Andrea Zugarini, Leonardo Rigutini, Marco Ernandes, Marco Maggini
date Time:2024-07-01
paper pdf:http://arxiv.org/pdf/2407.01272v2
摘要:
最近,出现了几种用于命名实体识别(NER)的专门指令调整大语言模型(LLM)。与传统的 NER 方法相比,这些模型具有很强的泛化能力。现有的 LLM 主要侧重于域外分布中的零点 NER,在大量实体类别上进行微调,而这些实体类别往往与测试集高度或完全重叠。而在这项工作中,我们提出了 SLIMER,这是一种旨在处理从未见过的命名实体标记的方法,它通过对较少的示例对模型进行指导,并利用富含定义和指南的提示来处理命名实体标记。实验证明,定义和指南能带来更好的性能、更快的学习速度和更强的学习能力,尤其是在标记未见过的命名实体时。此外,SLIMER 在域外零次 NER 中的表现可与最先进的方法相媲美,同时还能在较小的标签集上进行训练。
17.Large Language Models are Zero-Shot Recognizers for Activities of Daily Living
标题:大语言模型是日常生活活动的零镜头识别器
author:Gabriele Civitarese, Michele Fiori, Priyankar Choudhary, Claudio Bettini
publish:Currently under review
date Time:2024-07-01
paper pdf:http://arxiv.org/pdf/2407.01238v1
摘要:
在智能家居环境中,基于传感器的日常生活活动(ADLs)识别可在能源管理、安全、福祉和医疗保健等领域实现多种应用。ADLs 识别通常基于深度学习方法,需要大量数据集进行训练。最近的一些研究证明,大型语言模型(LLM)能有效捕捉有关人类活动的常识性知识。然而,LLMs 在智能家居环境中进行 ADLs 识别的有效性仍值得研究。在这项工作中,我们提出了基于 LLM 的新型 ADLs 识别系统 ADL-LLM。ADLLLM 将原始传感器数据转换为文本表述,然后由 LLM 进行处理,从而实现零误差 ADLs 识别。此外,在有少量标注数据集的情况下,ADL-LLM 还能进行少量提示。我们在两个公开数据集上对 ADL-LLM 进行了评估,证明了它在这一领域的有效性。
18.EconNLI: Evaluating Large Language Models on Economics Reasoning
标题:EconNLI:评估经济学推理的大型语言模型
author:Yue Guo, Yi Yang
publish:Findings of ACL 2024
date Time:2024-07-01
paper pdf:http://arxiv.org/pdf/2407.01212v1
摘要:
大语言模型(LLMs)被广泛用于撰写经济分析报告或提供财务建议,但它们理解经济知识和推理特定经济事件潜在结果的能力却缺乏系统评估。为了弥补这一不足,我们提出了一个新的数据集–经济事件自然语言推理(EconNLI),用于评估 LLM 在经济领域的知识和推理能力。我们从以下两个方面对 LLM 进行评估:(1)他们对前提事件是否会导致假设事件进行正确分类的能力;(2)他们根据给定前提生成合理事件的能力。我们的实验表明,LLMs 在经济推理方面并不成熟,可能会产生错误或幻觉答案。我们的研究提高了人们对使用 LLMs 进行涉及经济推理和分析的关键决策的局限性的认识。数据集和代码见 https://github.com/Irenehere/EconNLI。
19.Calibrated Large Language Models for Binary Question Answering
标题:用于二元问题解答的校准大语言模型
author:Patrizio Giovannotti, Alexander Gammerman
publish:Accepted to COPA 2024 (13th Symposium on Conformal and Probabilistic
Prediction with Applications)
date Time:2024-07-01
paper pdf:http://arxiv.org/pdf/2407.01122v1
摘要:
量化大型语言模型(LLM)在二进制文本分类任务中所做预测的不确定性仍然是一项挑战。就 LLM 而言,校准指的是模型的预测概率与其预测的实际正确性之间的一致性。校准良好的模型所产生的概率应能准确反映其预测正确的可能性。我们提出了一种新方法,利用归纳式维恩–阿伯斯预测器(IVAP)来校准与二进制标签对应的输出标记相关的概率。我们使用 Llama 2 模型在 BoolQ 数据集上进行的实验表明,对于各种标签标记选择,IVAP 始终优于常用的温度缩放方法,在保持高预测质量的同时实现了良好的概率校准。我们的发现有助于加深对 LLM 校准技术的理解,并为在二元问题解答任务中获得可靠的不确定性估计提供了实用的解决方案,从而提高了 LLM 预测的可解释性和可信度。
20.Pron vs Prompt: Can Large Language Models already Challenge a World-Class Fiction Author at Creative Text Writing?
标题:Pron vs Prompt:大型语言模型能否挑战世界级小说作家的创意文本写作?
author:Guillermo Marco, Julio Gonzalo, Ramón del Castillo, María Teresa Mateo Girona
publish:9 pages 6 figures
date Time:2024-07-01
paper pdf:http://arxiv.org/pdf/2407.01119v1
摘要:
大型语言模型(LLM)在各种语言相关任务中的表现都优于普通人,这已成为研究成果的例行报告,创意文本写作也不例外。因此,提出竞标似乎很自然:LLM 是否已经准备好在创意写作技能方面与顶尖(而非普通)小说家一较高下?为了给这个问题提供一个初步答案,我们在帕特里西奥-普隆(Patricio Pron,获奖小说家,被认为是他那一代人中最优秀的小说家之一)和 GPT-4(成绩最好的法学硕士之一)之间进行了一场比赛,比赛采用了 DeepBlue vs Kasparov 和 AlphaGo vs Lee Sidol 等人工智能与人类对决的精神。我们要求 Pron 和 GPT-4 各提供 30 个题目,然后为自己和对手的题目写小故事。然后,我们受博登对创造力定义的启发,准备了一个评价标准,并收集了 5400 份由文学评论家和学者提供的人工评价。我们的实验结果表明,LLM 离挑战人类顶级创意作家的水平还相差甚远,要达到这样的自主创意写作技巧水平,恐怕不是简单地使用更大的语言模型就能实现的。
21.BERGEN: A Benchmarking Library for Retrieval-Augmented Generation
标题:BERGEN:检索增强生成基准库
author:David Rau, Hervé Déjean, Nadezhda Chirkova, Thibault Formal, Shuai Wang, Vassilina Nikoulina, Stéphane Clinchant
publish:29 pages
date Time:2024-07-01
paper pdf:http://arxiv.org/pdf/2407.01102v1
摘要:
检索增强生成允许利用外部知识增强大型语言模型。由于生成式 LLM 近来大受欢迎,人们提出了许多 RAG 方法,其中涉及大量不同的配置,如评估数据集、集合、度量标准、检索器和 LLM。在比较各种方法和了解管道中每个组件的影响时,不一致的基准测试是一大挑战。在这项工作中,我们研究了为 RAG 系统性评估奠定基础的最佳实践,并介绍了 BERGEN,这是一个用于可重现研究的端到端库,将 RAG 实验标准化。在一项以质量保证为重点的广泛研究中,我们对不同的最先进检索器、reerankers 和 LLM 进行了基准测试。此外,我们还分析了现有的 RAG 指标和数据集。我们的开源库 BERGEN 在 \url{https://github.com/naver/bergen} 下提供。
22.M2QA: Multi-domain Multilingual Question Answering
标题:M2QA:多领域多语言问题解答
author:Leon Engländer, Hannah Sterz, Clifton Poth, Jonas Pfeiffer, Ilia Kuznetsov, Iryna Gurevych
date Time:2024-07-01
paper pdf:http://arxiv.org/pdf/2407.01091v1
摘要:
通用性和对输入变化的鲁棒性是机器学习研究的核心要求。语言在多个方面存在差异,其中最重要的是语言实例(如法语)和领域(如新闻)。虽然针对单一领域内的新语言或单一语言内的新领域调整 NLP 模型的研究非常广泛,但由于缺乏评估数据集,联合调整方面的研究受到了阻碍。这阻碍了 NLP 系统从资源丰富的语言和领域向非主要语言-领域组合的转移。为了弥补这一不足,我们引入了多域多语言问题解答基准 M2QA。M2QA 包括 13,500 个 SQuAD 2.0 风格的问题解答实例,语言包括德语、土耳其语和汉语,涉及产品评论、新闻和创意写作等领域。我们使用 M2QA 探索微调模型和最先进 LLM 的跨语言跨领域性能,并研究领域和语言适应的模块化方法。我们发现:1)在模型类别内,不同领域-语言组合之间的性能差异相当大;2)在所有规模的模型中,源语言和目标语言-领域组合之间的性能下降相当大。我们证明,M2QA 的问题远未解决,有必要采用新方法来有效传输语言和特定领域的信息。我们在 https://github.com/UKPLab/m2qa 上公开了 M2QA。
23.Face4RAG: Factual Consistency Evaluation for Retrieval Augmented Generation in Chinese
标题:Face4RAG:中文检索增强生成的事实一致性评估
author:Yunqi Xu, Tianchi Cai, Jiyan Jiang, Xierui Song
date Time:2024-07-01
paper pdf:http://arxiv.org/pdf/2407.01080v2
摘要:
传统的 “检索增强生成”(RAG)中普遍存在的事实不一致错误问题激发了对事实一致性评估(FCE)的研究。尽管早先提出了各种 FCE 方法,但这些方法都是在特定大型语言模型(LLM)生成的数据集上进行评估的。由于没有一个全面的基准,这些 FCE 方法在其他具有不同错误分布甚至是未见错误类型的 LLM 上的表现如何仍有待探索,因为这些方法可能无法检测到其他 LLM 产生的错误类型。为了填补这一空白,我们在本文中提出了第一个独立于底层 LLM 的 RAG 综合 FCE 基准 (emph{Face4RAG})。我们的基准包括一个基于精心设计的事实不一致错误类型学的合成数据集和一个由六种常用 LLM 构建的真实世界数据集,从而能够评估特定错误类型或真实世界错误分布的 FCE 方法。在提出的基准上,我们发现现有的 FCE 方法无法检测逻辑谬误,而逻辑谬误是指答案和检索到的参考文献之间的逻辑结构不匹配。为了解决这个问题,我们进一步提出了一种名为 \emph{L-Face4RAG}的新方法,它采用了逻辑保留答案分解和事实逻辑 FCE 两种新颖的设计。广泛的实验表明,L-Face4RAG 在大量任务中的表现大大优于以前的事实不一致性检测方法,尤其是在其最初灵感来源的 RAG 任务之外。基准和我们提出的方法都是公开的。
24.Step-Controlled DPO: Leveraging Stepwise Error for Enhanced Mathematical Reasoning
标题:分步控制的 DPO:利用逐步误差增强数学推理能力
author:Zimu Lu, Aojun Zhou, Ke Wang, Houxing Ren, Weikang Shi, Junting Pan, Mingjie Zhan, Hongsheng Li
date Time:2024-06-30
paper pdf:http://arxiv.org/pdf/2407.00782v2
摘要:
事实证明,直接偏好优化(DPO)能有效提高大型语言模型(LLM)在推理和配准等下游任务中的性能。在这项工作中,我们提出了分步控制 DPO(SCDPO),这是一种通过创建在指定步骤开始出错的数学推理理由负样本来自动提供分步错误监督的方法。通过在 DPO 训练中应用这些样本,SCDPO 可以使模型更好地理解推理错误并输出准确的推理步骤。我们将 SCDPO 应用于代码集成解决方案和思维链解决方案,经验表明,在三个不同的 SFT 模型(包括一个现有的 SFT 模型和两个我们进行了微调的模型)上,与天真 DPO 相比,SCDPO 能够持续提高性能。对 SCDPO 和 DPO 的信用分配进行的定性分析表明,SCDPO 能有效识别数学解决方案中的错误。然后,我们将 SCDPO 应用于 InternLM2-20B 模型,结果 20B 模型在 GSM8K 和 MATH 上分别获得了 88.5% 和 58.1% 的高分,可与所有其他开源 LLM 相媲美,显示了我们方法的巨大潜力。
25.A Comparative Study of Quality Evaluation Methods for Text Summarization
标题:文本摘要质量评估方法比较研究
author:Huyen Nguyen, Haihua Chen, Lavanya Pobbathi, Junhua Ding
publish:The paper is under review at Empirical Methods in Natural Language
Processing (EMNLP) 2024. It has 15 pages and 4 figures
date Time:2024-06-30
paper pdf:http://arxiv.org/pdf/2407.00747v1
摘要:
在自然语言处理(NLP)领域,评估文本摘要一直是一项具有挑战性的任务。在很多情况下,严重依赖参考摘要的自动度量并不适用,而人工评估则耗时耗力。为了弥补这一不足,本文提出了一种基于大语言模型(LLM)的文本摘要评估新方法。我们还对八种自动指标、人工评估和我们提出的基于 LLM 的方法进行了比较研究。我们对七种不同类型的最先进 (SOTA) 摘要模型进行了评估。我们在专利文档数据集上进行了广泛的实验和分析。我们的结果表明,LLM 的评估结果与人工评估结果非常吻合,而 ROUGE-2、BERTScore 和 SummaC 等广泛使用的自动度量标准则不吻合,而且缺乏一致性。在实证比较的基础上,我们提出了一个由 LLM 驱动的框架,用于自动评估和改进文本摘要,该框架是有益的,可以引起业界的广泛关注。
26.Large Language Models Struggle in Token-Level Clinical Named Entity Recognition
标题:大语言模型在令牌级临床命名实体识别中举步维艰
author:Qiuhao Lu, Rui Li, Andrew Wen, Jinlian Wang, Liwei Wang, Hongfang Liu
publish:AMIA 2024 Annual Symposium Proceedings
date Time:2024-06-30
paper pdf:http://arxiv.org/pdf/2407.00731v1
摘要:
大型语言模型(LLMs)给各行各业带来了革命性的变化,包括在医疗保健领域的各种应用。在罕见病领域,数据的稀缺性、复杂性和特异性构成了相当大的挑战,因此大型语言模型的作用尤为重要。在临床领域,命名实体识别(NER)是一项重要任务,在从临床文本中提取相关信息方面发挥着至关重要的作用。尽管 LLMs 前景广阔,但目前的研究大多集中在文档级 NER 上,即在整个文档中更广泛的上下文中识别实体,而不提取其精确位置。此外,人们还致力于将 ChatGPT 用于标记级 NER。然而,在对临床文本进行标记级 NER 方面,尤其是在使用本地开源 LLM 时,还存在很大的研究空白。本研究旨在通过研究专有 LLM 和本地 LLM 在标记级临床 NER 中的有效性来弥补这一差距。从本质上讲,我们通过一系列实验来深入探讨这些模型的能力,包括零次提示、少量提示、检索增强生成(RAG)和指令微调。我们的探索揭示了 LLM 在标记级 NER 中面临的固有挑战,特别是在罕见病的背景下,并为其在医疗保健领域的应用提出了可能的改进建议。这项研究有助于缩小医疗保健信息学领域的重大差距,并提供了一些见解,这些见解可能会使 LLM 在医疗保健领域的应用更加完善。
27.Financial Knowledge Large Language Model
标题:金融知识大语言模型
author:Cehao Yang, Chengjin Xu, Yiyan Qi
publish:66 pages
date Time:2024-06-29
paper pdf:http://arxiv.org/pdf/2407.00365v1
摘要:
人工智能正在金融业取得重大进展,彻底改变了数据的处理和解释方式。在这些技术中,大型语言模型(LLMs)通过自动化复杂任务、增强客户服务和提供详细的金融分析,在改变金融服务方面展现出巨大的潜力。首先,我们介绍 IDEA-FinBench,这是一个专门用于评估大型语言模型(LLM)中金融知识的评估基准。该基准采用了两个全球公认的权威金融专业考试的试题,旨在全面评估 LLM 直接应对金融领域相关考试问题的能力。其次,我们提出了 IDEA-FinKER–一个金融知识增强框架,旨在促进通用 LLM 快速适应金融领域,引入了一种基于检索的少量学习方法,用于实时注入上下文级知识,以及一套高质量的金融知识指令,用于微调任何通用 LLM。最后,我们介绍了 IDEA-FinQA,一个由 LLM 支持的金融问题解答系统。该系统围绕实时知识注入和利用外部知识增强事实的方案而构建。IDEA-FinQA 由三个主要模块组成:数据收集器、数据查询模块和负责特定功能的基于 LLM 的代理。
28.From RAG to RICHES: Retrieval Interlaced with Sequence Generation
标题:从 RAG 到 RICHES:检索与序列生成交错进行
author:Palak Jain, Livio Baldini Soares, Tom Kwiatkowski
publish:18 pages, 3 figures, Preprint
date Time:2024-06-29
paper pdf:http://arxiv.org/pdf/2407.00361v1
摘要:
我们提出的 RICHES 是一种将检索与序列生成任务交织在一起的新方法。RICHES 不需要单独的检索器和生成器,是传统 RAG 系统的替代方案。它通过直接解码文档内容来检索文档,并受限于语料库。将检索与生成统一起来,使我们能够仅通过提示就适应各种新任务。RICHES 可以与任何指令调整模型一起工作,无需额外的训练。它提供归因证据,支持多跳检索,并交错思考以计划下一步检索什么,所有这些都在 LLM 的一次解码过程中完成。我们展示了 RICHES 在 ODQA 任务(包括归因和多跳 QA)中的强大性能。
29.Iterative Data Augmentation with Large Language Models for Aspect-based Sentiment Analysis
标题:利用大型语言模型迭代数据扩充,实现基于方面的情感分析
author:Haiyun Li, Qihuang Zhong, Ke Zhu, Juhua Liu, Bo Du, Dacheng Tao
publish:Work in process
date Time:2024-06-29
paper pdf:http://arxiv.org/pdf/2407.00341v1
摘要:
基于方面的情感分析(ABSA)是一项重要的情感分析任务,其目的是确定句子中某个方面的情感极性。由于标注数据昂贵且有限,数据增强(DA)已成为提高 ABSA 性能的标准。然而,目前的数据扩增方法通常存在一些缺陷:1)流畅性和连贯性差;2)生成的数据缺乏多样性;3)依赖于一些已有的标注数据,阻碍了其在实际场景中的应用。针对这些问题,我们提出了一个系统的迭代数据增强框架,即 IterD,以提高 ABSA 的性能。IterD 的核心是利用大型语言模型(LLM)的强大能力,从无监督句子语料库开始,迭代生成更流畅、更多样的合成标注数据。在 4 个广泛使用的 ABSA 基准上进行的广泛实验表明,在 5 个基准 ABSA 模型中,IterD 带来了一致且显著的性能提升。更令人鼓舞的是,IterD 生成的合成数据可以达到与人工标注数据相当甚至更好的性能。
30.LLM-Generated Natural Language Meets Scaling Laws: New Explorations and Data Augmentation Methods
标题:LLM 生成的自然语言符合扩展法则:新的探索和数据增强方法
author:Zhenhua Wang, Guang Xu, Ming Ren
date Time:2024-06-29
paper pdf:http://arxiv.org/pdf/2407.00322v1
摘要:
随着大型语言模型(LLM)的兴起,自然语言处理技术也得到了提升,例如基于 LLM 的数据增强技术。然而,之前的研究存在两个主要问题:首先,缺乏对 LLM 生成的自然语言(LLMNL)是否真正符合人类自然语言(HNL)这一关键基础问题的思考;其次,LLM 的增强数据是随机生成的,这意味着并非所有数据都具有相同的训练价值,这可能会影响分类器的性能。为了应对这些挑战,我们引入了缩放定律来计算 LLMNL 和 HNL。通过大量实验,我们揭示了 LLMNL 与 Mandelbrot 定律的微小偏差(约 0.2 个 Mandelbrot 指数),强调了 HNL 的复杂性优势,并补充了关于语言风格的解释性讨论。这为 LLM 的扩展奠定了坚实的基础。此外,我们还介绍了一种用于少量文本分类的新型数据增强方法,称为 ZGPTDA,该方法利用符合缩放定律驱动的模糊计算机制,对 GPT-4 增强数据做出决策。在实际场景中进行的大量实验证实了 ZGPTDA 的有效性(将 Bert 和 RoBerta 的 F1 提高了 7-10%)和竞争力(在 DeBerta 上超过了最近的 AugGPT 和 GENCO 方法约 2% 的准确率)。此外,我们还揭示了一些有趣的见解,例如希尔伯格定律和泰勒定律可以为文本分类带来更多益处等。
31.LiteSearch: Efficacious Tree Search for LLM
标题:LiteSearch:针对 LLM 的有效树形搜索
author:Ante Wang, Linfeng Song, Ye Tian, Baolin Peng, Dian Yu, Haitao Mi, Jinsong Su, Dong Yu
date Time:2024-06-29
paper pdf:http://arxiv.org/pdf/2407.00320v1
摘要:
最近的研究表明,树搜索算法(如蒙特卡洛树搜索)可以显著提高复杂数学推理任务的 LLM 性能。然而,由于搜索策略的浪费,它们所需的计算资源往往是贪婪解码的 10 倍以上,因此很难在实际应用中部署。为解决这一问题,本研究引入了一种新颖的引导树搜索算法,该算法具有动态节点选择和节点级探索预算(最大子节点数)计算功能。通过考虑最终答案的搜索进度(历史)和在没有任何分步注释的情况下训练出来的价值网络(未来)的指导,我们的算法会迭代选择最有前途的树节点,然后在分配的计算预算范围内进行扩展。在 GSM8K 和 TabMWP 数据集上进行的实验表明,与基线方法相比,我们的方法不仅能提供有竞争力的性能,还能显著降低计算成本。