正规新闻网站哪家好_广告设计专业术语_长沙关键词排名首页_站长之家app下载

摘要

语言模型（LMs）在自然语言处理（NLP）研究和商业产品中已无处不在。随着其商业重要性的激增，最强大的模型已变得封闭，仅限于专有接口之后，其训练数据、架构和开发的重要细节未公开。鉴于这些细节在科学地研究这些模型（包括其偏见和潜在风险）中的重要性，我们认为研究社区必须能够访问强大的、真正开放的语言模型。为此，我们构建了OLMo，一个具有竞争力的、真正开放的语言模型，以促进语言模型的科学研究。与大多数先前仅发布模型权重和推理代码的努力不同，我们发布了OLMo以及开放的训练数据和训练及评估代码。我们希望此次发布能够赋能开放研究社区，并激发新一轮的创新浪潮。

1 引言

语言模型多年来一直是NLP技术的核心（Rosenfeld, 2000; Bengio等, 2003; Mikolov等, 2013; Peters等, 2018; Brown等, 2020）。最近，由于大规模预训练和人类标注的对齐，它们变得具有商业价值（OpenAI, 2023）。然而，随着其商业价值的增加，最大的模型已仅限于专有接口之后，重要细节未公开。
我们相信，研究社区完全访问开放语言模型对于这些模型的科学研究、其优势和劣势、以及其偏见和风险至关重要。因此，我们介绍了OLMo，一个强大的、真正开放的语言模型，以及开放的训练数据、训练和评估代码、中间模型检查点和训练日志。
最近的LM发布在开放程度上有所不同。例如，Mixtral 8x7B提供了模型权重和简要报告（Jiang等, 2024），而LLaMA附带了深入的适应训练指导（Touvron等, 2023b），Mosaic Pretrained Transformer则提供了许多细节，包括数据集分布，但不是数据本身（MosaicML NLP团队, 2023）。Falcon的预训练数据部分发布（Almazrouei等, 2023），最开放的模型——Pythia套件（Biderman等, 2023）和BLOOM（BigScience等, 2022）——发布了训练代码、模型检查点、数据等。
通过OLMo，我们发布了从数据到训练到评估工具的整个框架：跨多种硬件类型的多个训练检查点、训练日志和使用的确切数据集，并附有宽松的许可证。我们不是唯一这样做的团队；LLM360的最近工作也针对类似目标（Liu等, 2023）。OLMo缩小了与Llama 2等模型的最先进能力之间的差距。该项目受益于从所有这些先前努力中学到的经验，这些努力具有不同程度的开放性，我们相信，一个大型、多样化的开放模型群体是理解语言模型和工程进步以提升其效用的最佳希望。
OLMo框架包括构建和研究语言模型所需的工具和资源。对于训练和建模，它包括完整的模型权重、训练代码、训练日志和推理代码。发布的模型包括我们语言模型的四个变体，规模为7B，对应于不同的架构、优化器和训练硬件，以及一个1B规模的模型，所有模型至少训练了2T个标记。我们还发布了数百个中间检查点，作为HuggingFace上的修订版。对于数据集构建和分析，这些模型使用的完整训练数据是公开可用的（Dolma; Soldaini等, 2024），包括生成训练数据的代码和分析预训练数据的工具（Elazar等, 2024）。对于评估，我们基于Catwalk（Groeneveld等, 2023）进行下游评估和Paloma（Magnusson等, 2023）进行基于困惑度的评估。对于适应，我们使用Open Instruct（Ivison等, 2023; Wang等, 2023）来训练指令和反馈数据。最后，所有代码和权重均在Apache 2.0许可证下发布。
通过此次发布，我们希望促进对这些模型尚未充分理解的方面的研究，例如预训练数据与模型能力之间的关系、设计和超参数选择的影响，以及各种优化方法及其对模型训练的影响。此外，我们报告了在此规模上成功训练语言模型所需的经验教训和重要细节。

2 OLMo框架

本节描述了OLMo框架，包括OLMo模型（第2.1节）、我们的预训练数据集Dolma（第2.2节）和我们的评估框架（第2.4节）。

2.1 OLMo模型和架构

我们采用了基于（Vaswani等, 2017）的解码器专用变压器架构，并提供了1B和7B的变体，如表1所述。我们的特定架构包括对（Vaswani等, 2017）中原始变压器的几项改进，遵循其他最近的大型语言模型，如PaLM（Chowdhery等, 2022）、LLaMA家族（Touvron等, 2023a,b）、OpenLM（Gururangan等, 2023）和Falcon（Almazrouei等, 2023）。参见附录A中的表5，了解我们7B架构与这些其他家族中类似规模模型的全面比较。
我们通常通过优化硬件上的训练吞吐量来选择超参数，同时最小化损失峰值和缓慢发散的风险。我们通过我们的循环评估设置来消融选择，给定可用的计算资源（第2.4节）。我们对原始变压器架构的主要更改可以总结如下：

无偏置。遵循LLaMA、PaLM等，我们从架构中排除所有偏置项，以提高训练稳定性。
非参数化层归一化。我们使用层归一化的非参数化公式（Ba等, 2016），其中在归一化内没有仿射变换，即没有“自适应增益”（或偏置）。我们认为这是最安全的选择，并且与我们考虑的其他变体相比也是最快的：参数化层归一化和RMSNorm（Zhang和Sennrich, 2019）。
SwiGLU激活函数。像LLaMA、PaLM等一样，我们使用SwiGLU激活函数（Shazeer, 2020）而不是ReLU，并且遵循LLaMA，激活隐藏大小约为8 3d，但增加到最接近128的倍数（例如，我们的7B模型为11,008），以提高吞吐量。
旋转位置嵌入（RoPE）。与LLaMA、PaLM等模型类似，我们用旋转位置嵌入（RoPE；Su等，2021）替换了绝对位置嵌入。
词汇表。我们使用了基于BPE的分词器的修改版本，该分词器来自GPT-NeoX-20B（Black等，2022），并增加了用于掩码个人可识别信息（PII）的额外标记。最终词汇表大小为50,280。然而，为了最大化训练吞吐量，我们将模型中相应嵌入矩阵的大小增加到50,304，使其成为128的倍数。

2.2 预训练数据：Dolma

尽管在访问模型参数方面取得了进展，但预训练数据集仍然不够开放。预训练数据通常不会与开放模型一起发布（更不用说封闭模型了），而且关于这些数据的文档往往缺乏重现或完全理解工作所需的细节。这使得支持某些语言模型研究的线索变得困难，例如理解训练数据如何影响模型的能力和局限性。为了促进语言模型预训练的开放研究，我们构建并发布了我们的预训练数据集Dolma——一个多样化的多源语料库，包含从不同数据源获取的数万亿个标记和数十亿份文档，这些数据源（1）在大规模语言模型预训练中常见，（2）对公众开放（Soldaini等，2024）。表2提供了每个数据源数据量的高级概述。
Dolma是通过（1）语言过滤，（2）质量过滤，（3）内容过滤，（4）去重，（5）多源混合，和（6）标记化的管道构建的。我们建议读者参阅Dolma报告（Soldaini等，2024）以了解更多关于其设计原则、构建细节和内容的详细总结。该报告提供了在Dolma中间状态上训练语言模型的额外分析和实验结果，以分享我们在重要数据策展实践中学到的知识，包括内容或质量过滤器的作用、去重和混合多源数据。我们在策展过程中以及最终发布时都保持每个数据源的文档分离。我们开源了我们的高性能数据策展工具；这个工具包可以用于进一步实验Dolma、重现我们的工作，并实现快速简便的预训练语料库策展。最后，我们还开源了我们的WIMBD工具（Elazar等，2024）以帮助进行数据集分析。

在这里插入图片描述

2.3 适应

预训练模型并不总是直接使用，而是通过进一步微调来提高其性能、安全性和可用性。通常，模型首先被训练以遵循指令（Mishra等，2022；Wei等，2022；Sanh等，2022），然后进一步训练以符合人类偏好（Ouyang等，2022），以提高其生成质量。我们通过训练OLMo成为遵循TÜLU数据和训练设置（Ivison等，2023）的通用聊天助手，展示了使用OLMo作为基础模型进行进一步微调的有效性。这包括首先使用蒸馏和人类编写的指令数据进行指令微调，然后使用直接偏好优化（DPO）（Rafailov等，2023）进一步与蒸馏的偏好数据对齐模型。

2.4 评估

我们在两个阶段进行基础模型评估：在线评估以做出模型设计决策，离线评估以评估模型检查点。对于离线阶段，我们使用Catwalk框架（Groeneveld等，2023），这是一个公开可用的评估工具，可以访问广泛的数据集和任务格式，以执行下游评估以及在困惑度基准Paloma（Magnusson等，2023）上的内在语言建模评估。对于下游和困惑度评估，我们使用固定的评估管道来比较与公开可用模型的结果。我们还报告了适应模型的单独评估。
在模型训练过程中，我们进行下游评估以做出关于模型架构、初始化、优化器、学习率计划和数据混合的决策。我们称之为在线评估，因为它每1000个训练步骤（或约4B训练标记）循环运行，并提供关于正在训练的模型质量的早期和连续信号。这些评估依赖于我们离线评估中使用的许多核心任务和实验设置，详见第4.1节，这也反映了EleutherAI评估工具（Gao等，2023）的任务和评估结构。
下游评估遵循许多先前的工作（Brown等，2020；Black等，2022；Touvron等，2023a,b等），我们报告了一组下游任务的零样本性能。我们的评估套件包括8个核心任务，与Touvron等（2023a）和Touvron等（2023b）报告的常识推理任务集密切相关（参见表3中的任务列表）。鉴于被评估模型的规模，这些任务在模型开发初期被选中，因为它们自然（例如，所有都可以表述为文本完成评分任务）并且能够在整个训练过程中提供有意义的信号（参见图1）。
内在语言建模评估为了测量OLMo如何适应超出保留训练数据的语言分布，我们使用Paloma（Magnusson等，2023），一个新的困惑度基准，包括585个不同的文本领域。领域范围从nytimes.com到Reddit上的r/depression，并从18个单独的数据源中抽取，如C4（Raffel等，2020），在分层样本中。这允许更平等地包含在其源语料库中代表性不足的文本领域。
我们不仅旨在比较OLMo与其他模型的最佳性能，还旨在展示它如何实现更全面和更受控的科学评估。OLMo-7B是最大的LM，具有明确的净化以进行困惑度评估。遵循Paloma中描述的方法，我们删除了任何包含从Paloma评估数据泄露段落的预训练文档。没有净化，其他模型可能会低估困惑度（即高估模型的样本外拟合）。我们还发布了中间检查点，允许与发布检查点的其他两个模型进行更丰富的比较，Pythia-6.9B（Biderman等，2023）和RPJ-INCITE-7B（Together Computer，2023）（参见图2）。
适应评估我们还使用Wang等（2023）；Ivison等（2023）提出的TÜLU评估套件评估了OLMo在指令微调和DPO训练后的表现。我们专注于评估模型聊天能力和安全性，以展示使用OLMo作为进一步微调基础的有效性。

3 训练OLMo

本节描述了我们的预训练设置，包括我们的分布式训练框架（第3.1节）、优化器（第3.2节）、数据准备（第3.3节）和硬件（第3.4节）。

3.1 分布式训练框架

我们使用ZeRO优化器策略（Rajbhandari等，2019）通过PyTorch的FSDP框架（Zhao等，2023）训练我们的模型，该框架通过跨GPU分片模型权重及其相应的优化器状态来减少内存消耗。在7B规模上，这使我们能够在我们的硬件上以每个GPU 4096个标记的微批量大小进行训练（参见第3.4节）。对于OLMo-1B和-7B模型，我们使用大约4M标记的恒定全局批量大小（2048个实例，每个实例的序列长度为2048个标记）。
为了提高吞吐量，我们通过FSDP的内置设置和PyTorch的amp模块采用混合精度训练（Micikevicius等，2017）。后者确保某些操作如softmax始终以全精度运行以提高稳定性，而所有其他操作以bfloat16格式的半精度运行。在我们的特定设置下，每个GPU本地的分片模型权重和优化器状态保持全精度。每个变压器块内的权重仅在正向和反向传递期间在每个GPU上实例化完整大小的参数时转换为bfloat16。梯度在GPU之间以全精度减少。

3.2 优化器

我们使用AdamW优化器（Loshchilov和Hutter，2019），其超参数如表1所示。对于所有模型大小，我们在5000步（约21B标记）内预热学习率，然后从那里线性衰减到峰值学习率的十分之一，直到训练结束。在预热期后，我们裁剪梯度，使得参数梯度的总l2范数3不超过1.0。表5比较了我们在7B规模上的优化器设置与其他最近使用AdamW的LM的设置。

3.3 数据

我们从我们的开放数据集Dolma（Soldaini等，2024）中构建了我们的训练数据集，该数据集在第2.2节中描述。每个文档的标记在附加特殊EOS标记到每个文档末尾后连接在一起，然后我们将2048个标记的连续块分组以形成训练实例。训练实例在每次训练运行中以完全相同的方式洗牌。数据顺序和每个训练批次的确切组成可以从我们发布的工件中重建。
我们发布的所有模型都至少训练了2T标记（我们训练数据的单个epoch），有些模型通过以不同的洗牌顺序开始数据的第二个epoch而训练了更多。根据先前的工作（Muennighoff等，2023），重复这少量数据的影响应该是微不足道的。

3.4 硬件

为了验证我们的代码库可以在NVIDIA和AMD GPU上使用而不会损失性能，我们在两个不同的集群上训练了模型：
• LUMI：由LUMI超级计算机提供，我们在这个集群上使用了多达256个节点，每个节点包含4个AMD MI250X GPU，每个GPU有128GB内存和800Gbps的互连。
• MosaicML：由MosaicML（Databricks）提供，我们在这个集群上使用了27个节点，每个节点包含8个NVIDIA A100 GPU，每个GPU有40GB内存和800Gbps的互连。
尽管为了优化训练吞吐量在批量大小上有微小差异，但两个集群上的训练在我们的评估套件上达到了几乎相同的性能，训练了2T标记。

4 结果

用于评估OLMo-7B的检查点是在Dolma（Soldaini等，2024）数据集上训练到2.46T标记的，使用了第3.2节中提到的线性学习率衰减计划。在我们的实验中，我们发现通过在Dolma数据集上进一步调整这个检查点1000步，并将学习率线性衰减到0，可以提高模型在困惑度和第2.4节描述的最终任务评估套件上的性能。我们将OLMo与其他公开可用的模型进行了比较，包括LLaMA-7B（Touvron等，2023a）、Llama-2-7B（Touvron等，2023b）、MPT-7B（MosaicML NLP团队，2023）、Pythia-6.9B（Biderman等，2023）、Falcon-7B（Almazrouei等，2023）和RPJ-INCITE-7B（Together Computer，2023）。

4.1 下游评估

设置我们的核心下游评估套件（见表3）包括：arc（包括arc_easy和arc_challenge）（Clark等，2018）、boolq（Clark等，2019）、openbookqa（Mihaylov等，2018）、sciq（Welbl等，2017）、hellaswag（Zellers等，2019）、piqa（Bisk等，2020）和winogrande（Sakaguchi等，2021）。在附录C中，我们还报告了一组核心评估集之外的辅助任务的结果，这些任务的性能趋势不太稳定（见图4）。
在这里插入图片描述

在所有情况下，我们使用由Brown等人（2020）推广的排名分类方法进行零样本评估。在这种方法下，候选文本补全（例如，不同的多项选择选项）根据可能性进行排名（通常通过某种归一化因子进行归一化），并报告预测准确性。虽然Catwalk实现了多种常见的可能性归一化策略，包括按标记数归一化（每标记归一化；Brown等人，2020；Liang等人，2022）、按字符数归一化（每字符归一化；Gao等人，2023），以及结合答案的无条件可能性（Brown等人，2020），我们为每个数据集单独选择了归一化策略。具体来说，我们对arc和openbookqa使用无条件归一化，对hellaswag、piqa和winogrande使用每标记归一化，对boolq和sciq不使用归一化（即，这些任务被表述为单标记预测任务）。

结果表3总结了OLMo的零样本评估结果，并与规模相当的其他公开可用模型进行了比较。我们报告了第2.4节中描述的评估套件中8个核心任务的结果。总体而言，OLMo-7B与所有可比模型相比具有竞争力。我们包括了与StableLM 1.6B的比较，但请注意，它的规模显著更大，并且是在未知数据上训练的。

在图1中，我们绘制了8个核心最终任务的准确性得分进展。除了OBQA之外，所有任务在OLMo-7B训练更多标记时都显示出准确性数字的上升趋势。在最后一步和倒数第二步之间，许多任务的准确性急剧上升，显示了在最后1000个训练步骤中将学习率线性降低到0的好处。更多评估结果和讨论见附录C中的表7。

4.2 内在语言建模评估

设置对于内在评估，Paloma提出了一系列分析，从单独检查每个领域的性能到更综合的领域组合结果。我们报告了两个粒度级别的结果：在Paloma中18个来源中的11个来源的聚合性能，如（Magnusson等人，2023）中所述，以及这些来源中每个来源的更细粒度结果。Paloma中这11个来源的特定子集排除了不可公开获取的来源、涉及边缘或有害文本的来源，或由Paloma的净化方法不支持的代码数据来源。这包括C4（Raffel等人，2020）、mC4-en（Chung等人，2023）、Wikitext 103（Merity等人，2016）、Penn Treebank（Marcus等人，1999；Nunes，2020）、RedPajama（Together Computer，2023）、Falcon-RefinedWeb（Penedo等人，2023）、Dolma（Soldaini等人，2024）、M2D2 S2ORC（Reid等人，2022）、M2D2 Wikipedia（Reid等人，2022）、C4 100 domains（Chronopoulou等人，2022）和Dolma 100 Subreddits（Soldaini等人，2024）。为了允许具有不同词汇表的模型之间进行公平比较，我们报告了由Gao等人（2020）定义的每字节比特数在这些来源的测试集上的结果。

在这里插入图片描述

结果在图2的“Sources Combined”子图中，我们展示了OLMo-7B在Paloma的11个数据源组合上的性能，并与6个规模相当的语言模型进行了比较。总体而言，我们发现OLMo具有竞争力的拟合度，尤其是考虑到其训练数据已针对Paloma进行了明确的净化。通过最终模型（见形状）和中间检查点（见虚线）的比较可以看出，OLMo的结果遵循了与其他模型相似的扩展趋势。需要注意的是，中间检查点的性能受其在学习率计划中的位置影响。因此，训练步骤较少的模型往往会有更陡峭的训练曲线，但如果所有模型的训练持续时间固定，则不一定具有更高的样本效率。然而，MPT-7B在这个子图中表现突出，其改进速度领先于其他模型。这可能是由于多种因素，包括预训练数据组成及其与Paloma领域的匹配（例如，MPT在27%的非Common Crawl数据上训练，而LLaMA为18%，RedPajama为12.2%，OLMo为11.2%），以及各种数据预处理决策（例如，MPT使用Abbas等人（2023）在C4上的语义去重）。

图2中的其余子图通过分别报告11个数据源的每字节比特数，提供了更细粒度的分析，这些数据源在聚合的Paloma指标中组合在一起。从中我们看到样本效率的更大变化，这主要由训练和评估分布的相似性驱动。值得注意的是，OLMo-7B在以Common Crawl为主的评估中表现良好，例如C4，尽管不同的Common Crawl后处理方式最适合使用该特定数据训练的模型，例如Falcon-7B在Falcon RefinedWeb上的表现。与此同时，OLMo-7B在与抓取的网页文本关系较小的来源上，如WikiText-103、M2D2 S2ORC和M2D2 Wikipedia，样本效率较低。RedPajama评估显示出类似的模式，可能是因为其7个域中只有2个来自Common Crawl，而Paloma在每个来源内对域的权重相等。由于来自维基百科和ArXiv论文等策划来源的异质数据比抓取的网页文本更为稀缺，随着预训练语料库的扩展，保持对这些语言分布的样本效率将具有挑战性。

4.3 适应评估

设置我们在适应前、监督微调阶段和DPO训练阶段后评估OLMo-7B，重点关注Wang等人（2023）使用的安全和聊天评估。我们还与表3中模型的官方发布的指令调优变体进行了比较。最后，我们还与TÜLU 2模型进行了比较，以与使用相同训练后数据混合和程序训练的模型进行比较。
在这里插入图片描述

结果我们发现指令调优显著提升了OLMo-7B的性能和安全性，大幅提高了MMLU的表现，并改善了ToxiGen和TruthfulQA的得分——尤其是在DPO训练之后。此外，我们发现OLMo-7B在初始指令调优（OLMo+SFT）和额外的偏好对齐（OLMo+SFT+DPO）后，表现优于大多数其他聊天变体，这既凸显了OLMo-7B作为基础模型的实力，也展示了用于适应训练的TÜLU混合数据的有效性。然而，我们发现与TÜLU 2模型仍存在差距，后者是在Llama 2上应用TÜLU混合数据训练的。这一差距可能源于Llama 2的测试集污染8，以及TÜLU混合数据主要针对Llama模型设计。总体而言，我们看到OLMo-7B从额外调优中受益匪浅，并作为下游应用的强大基础模型。

5 发布的成果

通过分享所有流程阶段的成果，我们旨在鼓励开放研究，减少学术界和实践者重复且往往成本高昂的工作。我们发布了以下内容：

预训练（§2.1）
1. 训练和建模代码。
2. 7B模型、7B-twin-2T和1B模型的训练权重。对于所有模型，我们不仅发布了最终模型权重，还发布了500多个中间检查点，每1000步一个。
3. 训练期间记录到Weights & Biases的完整指标集。
数据（§2.2）
1. 完整的预训练语料库Dolma（Soldaini等，2024）。
2. 支持重现完整训练数据顺序以及检查训练期间每一步所见数据的工具。
3. 用于重建训练数据（Soldaini等，2024）和进行数据集分析的工具（Elazar等，2024）。
适应（§2.3）
1. 适应训练的代码和数据。
2. OLMo+SFT和OLMo+SFT+DPO的模型权重。
评估（§2.4）
1. 评估框架Catwalk（Groeneveld等，2023）中的代码和数据，用于下游任务和内在语言建模的离线评估（Magnusson等，2023）。
2. 适应模型的评估套件（Wang等，2023；Ivison等，2023）。

6 结论与未来工作

本文介绍了我们首次发布的OLMo，这是一个最先进的、真正开放的语言模型及其构建和研究语言建模科学的框架。与大多数先前仅发布模型权重和推理代码的努力不同，我们发布了OLMo及整个框架，包括训练数据、训练和评估代码，以及训练期间收集的详细指标。此外，我们还发布了适应模型及其所有代码和数据。
我们计划持续支持和扩展OLMo及其框架，并继续推动开放语言模型的边界，以赋能开放研究社区。自本文描述的OLMo初始发布以来，我们改进了数据和训练设置，显著提升了结果。例如，MMLU得分提高了24个百分点至52%。9我们期待将不同模型规模、模态、数据集、安全措施和评估纳入OLMo家族。我们希望此次及未来的发布能赋能并加强开放研究社区，并激发新一轮的创新。

局限性
我们认识到构建大型语言模型存在许多局限性。事实上，从数据到训练、适应再到评估，每个步骤都有其自身的局限性，因此我们在下面为每个步骤添加了部分。当然，我们认识到当今的AI系统可能具有广泛的社会影响，因此存在超出我们能力范围的重大局限性。

数据我们的工作主要集中在英语预训练数据上。我们希望我们的开放框架能够促进更多语言以及多语言模型的未来发展。模型训练的数据决定了模型的能力，而在训练大型语言模型的规模上，我们认识到数据可能包含有毒语言、个人信息和受版权保护的文本等有问题内容。我们尽力减轻了这些问题，但认识到目前没有完美的方法可以完全去除这些内容。

训练训练大型语言模型目前是一项具有挑战性的工作，缺乏开源社区的显著支持。由于篇幅有限，我们没有提供广泛的训练日志记录，例如训练运行偏离或未能学习的情况。

适应我们的预训练模型面临与现有预训练LLM相同的问题，如偏见、毒性和幻觉。我们的适应模型在避免这些问题方面表现更好，但并不完美。此外，我们注意到我们主要采用了为不同模型家族设计的现有数据混合（TÜLU，为Llama模型设计），而OLMo可能需要不同的数据混合来调整其独特的优势和劣势。TÜLU混合本身也依赖于从各种模型中提取的数据，我们希望未来减少对此类数据的依赖。

评估虽然我们在各种数据集上与其他当前语言模型进行了比较，但许多下游任务实际上并不能代表用户如何与语言模型交互（即作为聊天机器人）。此外，语言模型评估目前非常嘈杂；我们旨在仅包含对提供一些信号的评估数据集，以确定哪个模型表现最佳，但认识到没有完美的自动评估，因此比较应持保留态度。

伦理声明
通过这项工作，我们采取的立场是，语言模型的开放性对于科学理解其能力和局限性以及广泛参与此类模型的持续开发至关重要。在开放数据上进行训练进一步增强了这些好处。此外，我们的开放发布使从业者能够使用我们的模型并在此基础上构建，而不必从头开始训练自己的模型，在这种情况下，他们将重复我们的工作，同时消耗更多资源并导致更大的环境影响。当然，开放性并非没有风险；这些模型仍可能以意外的方式使用，造成伤害。我们相信，研究和开发努力以理解和减轻这些潜在危害也将因模型的开放性而加速，允许多样化的方法和分析。过去一年中，有许多具有非常宽松许可的可比模型发布，因此对我们的工作使用更严格的许可并不会消除该领域的整体风险。我们认为，这种倾向于更加开放的权衡是最佳选择。

A 训练设置

表5总结了OLMo-7B的模型架构和优化器参数，以及近期类似规模模型的相关信息。

B 能耗与碳足迹

根据以往文献（Strubell等，2019；Patterson等，2021；Wu等，2022；Dodge等，2022），我们通过计算训练所需的总能耗，然后乘以模型训练所在地电网的碳排放强度，来估算预训练模型期间消耗的总能量和释放的碳量。虽然报告这些运营排放是标准做法，但它并未考虑其他排放源，如硬件和数据中心基础设施的制造、运输和处置所产生的隐含排放，使用期间的终身运营排放，反弹效应，或其他环境影响，如水资源消耗或采矿。因此，我们的估算应视为下限。
我们通过每25毫秒测量单个节点的能耗，计算整个训练运行期间的平均值，并乘以节点总数，来计算模型的总能耗。然后，我们通过将上述总值乘以电力使用效率（PUE）因子来考虑数据中心的能效，我们将其设为1.1，代表能效数据中心的典型10%能耗开销。1011我们估计预训练7B模型消耗了239兆瓦时的能量。
为了计算碳排放量，我们将总能耗乘以碳排放强度因子，单位为每千瓦时排放的二氧化碳千克数，基于每个模型训练数据中心的物理位置。在A100-40GB GPU上训练的模型在澳大利亚训练，因此我们假设碳排放强度因子为0.610，这是2022年澳大利亚的全国平均值。12在MI250X GPU上训练的模型在LUMI超级计算机上训练，该计算机使用100%可再生能源，碳中和，因此我们假设碳排放强度因子为0。LUMI完全由水力发电供电，一些来源（Ubierna等，2022）测量水力发电的碳排放强度因子为0.024，这意味着总碳排放量为3.54吨二氧化碳当量。13然而，我们依赖官方LUMI数据进行计算，因此我们估计总预训练排放量为69.78吨二氧化碳当量。14在表6中，我们基于公开信息将我们的模型与其他先前发布的模型进行了比较。
我们希望通过公开我们的模型，可以减少未来的排放，使其他人无需从头开始预训练模型，并深入了解开发最先进模型的真实成本。我们还强调，我们的估算是下限，因为它们不包括调试、超参数调整和停机等其他关键开发环节的排放。

C 额外评估

额外的困惑度结果在图3中，我们提供了Paloma（Magnusson等，2023）中7个数据源的结果，这些数据源在图2的组合指标中被排除。其中一些数据源，如Pile（Gao等，2020）和ICE（Greenbaum和Nelson，1996），目前尚未公开。Dolma 100编程语言（Soldaini等，2024）包含代码数据，这些数据不受Paloma中使用的净化方法支持。TwitterAAE（Blodgett等，2016）与ICE一样，是针对不同方言间性能差异的针对性分析数据集，因此应单独评估。最后，Manosphere、Gab和4chan语料库（Ribeiro等，2021；Zannettou等，2018；Papasavva等，2020）旨在检查模型对边缘在线社区语言的拟合度，这些社区因普遍的仇恨言论和毒性而被研究。因此，最小化这些边缘语料库的困惑度并不总是可取的。
一个值得注意的结果是，OLMo-7B在Dolma 100编程语言（100 PLs）上远远领先于其他模型。请注意，这种效果可能部分是由于污染导致的低估，因为净化代码数据超出了Paloma方法的范围。同时，其他在GitHub代码数据上训练的模型，如RPJ-INCITE-7B，同样可能存在污染，表现却差得多。另一个因素是OLMo-7B在100 PLs中使用完全相同的后处理方式训练代码数据，而其他模型中的代码数据则经过了不同的处理。同样，Pile评估展示了这些分布内和潜在污染效应，尽管Pythia-6.9B训练的标记数几乎比OLMo-7B少一个数量级，但其表现却最佳。
在这里插入图片描述

对于剩余的5个针对性数据源的结果，应谨慎解释，因为Paloma经常发现这些数据源的困惑度主要受表面特征（如平均文档长度较短）的影响，而不是与这些语言社区成员实际关注的内容的拟合度。TwitterAAE和Gab在Paloma中拥有最短的文档，导致图中每字节比特数异常高。除了这两个数据源外，模型在ICE、Manosphere和4chan中的数据扩展趋势中表现得非常接近。

额外的最终任务结果接下来，在表7中，我们提供了OLMo-7B在核心评估套件中的8个任务之外的6个额外最终任务上的零样本评估结果。这些任务包括headqa_en（Vilares和Gómez-Rodríguez，2019）、logiqa（Liu等，2020）、mrpc（Dolan和Brockett，2005）、qnli（Wang等，2018）、wic（Pilehvar和Camacho-Collados，2018）以及wnli（Wang等，2018）。

然而，我们注意到，与第4.1节中描述的核心评估集相比，我们发现这些额外的最终任务在模型开发过程中表现不太稳定，提供的信号有限。这一点在图4中得到了说明，我们可以看到任务性能在训练过程中的进展更加随机（与图1中更稳定的上升趋势相比）。虽然mrpc和wic等任务看起来更稳定，但它们也带来了额外的困难，例如性能与随机机会相关（如wic）或模型倾向于做出虚假预测（如总是预测单一标签），这些预测由于数据集类别不平衡而夸大或缩小了性能（如mrpc）。因此，我们建议在衡量模型训练过程中的性能并比较模型时，不要过于依赖这些任务。
在这里插入图片描述

D 适应训练细节

我们在指令调优OLMo时使用了以下超参数。这些参数是通过小型试点实验选择的。

学习率：2 × 10⁻⁶
训练轮数：3
预热：在总训练时间的前3%进行线性预热，然后在剩余步骤中线性降温至学习率为0。
权重衰减：0
梯度裁剪：0
最大序列长度：2048
数据：TÜLU V2 SFT混合数据，重新分割以使长对话分成2048个标记的块，并用关于OLMo的数据替换硬编码的分割。数据已公开。¹⁴

在指令微调后，我们按照Ivison等人（2023）的方法，使用以下超参数进行DPO训练：

学习率：5 × 10⁻⁷
β：0.1
训练轮数：3
预热：在总训练时间的前10%进行线性预热，然后在剩余步骤中线性降温至学习率为0。
权重衰减：0
梯度裁剪：0
最大序列长度：2048
数据：UltraFeedback（Cui等，2023）的修改版本，移除了TruthfulQA提示。我们使用了Argilla发布的“固定”变体，该变体使用GPT生成的基于方面的评分的平均值来确定选择和拒绝的对。

E 适应评估与模型细节

我们通过选择表3中对比的基础模型的“标准”最佳版本（即由同一组织发布的最佳指令调优或适应模型）来确定表4中的模型。我们还与TÜLU 2进行比较，以展示使用TÜLU混合数据微调OLMo的当前最佳模型。我们在MMLU、AlpacaEval、ToxiGen和Truthfulness上进行评估，重点展示指令调优如何提升模型能力（MMLU）、模型在开放式聊天环境中的表现（AlpacaEval），以及测试指令调优如何提高模型的安全性和真实性（AlpacaEval、ToxiGen）。我们还在表8中报告了OLMo在整个TÜLU评估套件中的表现。

以下是表4中评估的每个模型的简要描述。对于所有模型，我们使用提供的聊天模板进行提示格式化（如果可用）。

MPT Chat：MPT 7B的版本，在ShareGPT-Vicuna（Chiang等，2023）、HC3（Guo等，2023）、Alpaca（Taori等，2023）、HH-RLHF（Bai等，2022）和Evol-Instruct（Xu等，2024）数据集上微调。从https://huggingface.co/mosaicml/mpt-7b-chat获取。
Falcon Instruct：Falcon 7B的版本，在Baize（Xu等，2023）、GPT4All（Anand等，2023）、GPTeacher（Teknium1，2023）和Refined-Web English（Penedo等，2023）数据集上微调。从https://huggingface.co/tiiuae/falcon-7b-instruct获取。
RPJ-INCITE Chat：RPJ-INCITE 7B的版本，在OASST1（Köpf等，2023）和Dolly V2（Conover等，2023）数据集上微调。从https://huggingface.co/togethercomputer/RedPajama-INCITE-7B-Chat获取。
Llama-2 Chat：Llama 2 7B的版本，在指令数据集的混合数据上微调，并进一步通过RLHF训练。更多细节请参阅Touvron等（2023b）。
TÜLU 2：Llama 2 7B的版本，在指令数据集的混合数据（TÜLU 2混合数据）上微调。更多细节请参阅Ivison等（2023）。
TÜLU 2+DPO：TÜLU 2进一步在UltraFeedback数据集（Cui等，2023）上通过DPO训练。更多细节请参阅Ivison等（2023）。
OLMo+SFT：OLMo 7B的版本，在与TÜLU 2相同的数据上微调。
OLMo+SFT+DPO：OLMo+SFT进一步在UltraFeedback数据集（Cui等，2023）上通过DPO训练。

我们还提供了表4中每个评估设置的简要描述：

MMLU：我们使用官方的MMLU（Hendrycks等，2021）评估脚本和提示，可从https://github.com/hendrycks/test获取，并进行了修改以支持批量处理。我们使用0个少样本示例进行评估，遵循MMLU的原始设置。我们报告测试示例的平均准确率。
ToxiGen：我们遵循Touvron等（2023b）的设置，但使用了Hartvigsen等（2022）的原始提示集，这些提示旨在引发针对某些群体的有害生成。我们仅使用设计用于生成有害语言的提示（“仇恨”提示），并为每组使用500个提示以减少评估成本。对于基础语言模型，我们直接输入原始的ToxiGen提示，并贪婪解码至第一个换行符（或最多512个标记）。对于指令调优模型，我们将提示放入相应的模板中，并要求模型完成提示，直到生成停止标记（或最多512个标记）。我们将生成的文本输入到经过微调的roberta-large模型中，该模型用于检测有害内容（Hartvigsen等，2022）。¹⁶ 然后，我们报告被分类器判定为有害的生成文本的百分比。
TruthfulQA：遵循Touvron等（2023b），我们主要使用TruthfulQA（Lin等，2022）的生成设置。TruthfulQA数据集包含818个问题，用于提示测试模型生成答案。我们使用默认的QA提示格式，包含6个上下文QA示例。我们遵循其官方实现中的脚本¹⁷进行贪婪解码和答案后处理。由于GPT-3的弃用，我们训练了两个基于LLaMA 2的分类器来评判模型响应的真实性和信息性，这使得完全复现原始的TruthfulQA评估变得不可行。我们发现LLaMA 2评判者通常能够匹配Lin等（2022）使用的原始GPT-3评判者的表现。我们报告响应真实且具有信息性的比率（% Informative and Truthful），遵循Touvron等（2023b）。我们仅将% Informative and Truthful作为主要指标报告。

AlpacaEval：我们使用Li等人（2023）提供的工具包，遵循默认设置，要求被评估模型为805个提示生成响应，并使用GPT-4将其响应与Davinci-003的响应进行比较。我们使用“alpaca_eval_gpt4”注释器。我们允许被评估模型生成最多2048个标记，不指定特殊的停止序列。报告的胜率是GPT-4认为模型生成优于Davinci-003生成的百分比。