(本文借助 Grok 3 协助生成)
在大型语言模型(LLM)领域,数据集的分类和作用是一个复杂且不断发展的主题。以下是关于与大模型相关的数据集的全面分析,包括通常提到的训练数据集和测试数据集,以及其他类型的数据集的进一步细分及其意义。
数据集的总体分类
研究表明,与大模型相关的数据集可以分为多个类别,涵盖模型开发的各个阶段。以下是主要分类及其作用:
-
预训练数据集:
-
定义与作用:这些是大型文本语料库,用于初始训练,使模型学习语言模式、语法和广泛的知识。预训练数据集通常规模巨大,例如The Pile有800 GB,Common Crawl涉及数TB的数据。
-
典型示例:Common Crawl、The Pile、Wikipedia、BookCorpus、C4(Colossal Clean Crawled Corpus)、RefinedWeb、ROOTS、Red Pajama。
-
意义:预训练数据集决定了模型的通用语言理解能力,是模型能力的基础。
-
比喻:像学生通过广泛阅读和听力学习语言基础,理解结构和词汇。
-
-
微调数据集:
-
定义与作用:在预训练后,使用较小的任务特定数据集来适应模型,使其在特定应用或领域表现更好。微调数据集可以进一步分为:
-
任务特定微调数据集:用于特定NLP任务,如SQuAD用于问答,GLUE用于语言理解任务。
-
领域特定微调数据集:用于特定领域,如医疗文本用于医疗QA系统。
-
指令跟随数据集:教模型遵循自然语言指令,如Alpaca和Dolly。
-
-
典型示例:SQuAD、GLUE、Alpaca、Dolly、HelpSteer(自驾车指令)、H2O LLM Studio(跨领域微调)、Function Calling Extended(代码片段和函数调用)。
-
意义:微调数据集使模型更适合特定任务或用户需求,增强其实用性。
-
比喻:像学生在特定领域深造,练习特定技能或课程。
-
-
偏好数据集:
-
定义与作用:用于强化学习从人类反馈(RLHF),帮助训练奖励模型,使模型输出更符合人类偏好。这些数据集包含优选和非优选响应的对,旨在减少有害内容并提高模型的安全性。
-
典型示例:Anthropic HH Golden(高质量人-人对话)、OpenAI的内部偏好数据(非公开)。
-
意义:偏好数据集在RLHF中特别重要,确保模型输出符合伦理和用户期望。这在传统机器学习中不常见,是一个意想不到的细节。
-
比喻:像学生从老师或同伴反馈中改进沟通风格,确保适当有效。
-
-
评估数据集:
-
定义与作用:通常指测试数据集,用于在训练后衡量模型在各种任务上的性能。这些数据集是基准测试,确保模型能泛化到新数据。
-
典型示例:GLUE(通用语言理解评估)、SuperGLUE(更具挑战性的任务集合)、MMLU(大规模多任务语言理解)、HellaSwag(自然语言推理)。
-
意义:评估数据集允许研究人员比较不同模型,跟踪领域进步,并识别模型的强项和弱点。这是评估模型实际性能的关键步骤。
-
比喻:像参加标准化考试评估语言能力,与同伴比较。
-
-
验证数据集:
-
定义与作用:在训练过程中使用,用于监控模型性能,调整超参数,并防止过拟合。
-
意义:验证数据集在训练过程中至关重要,确保模型不过度拟合训练数据,从而在未见数据上表现良好。
-
比喻:像学生在学习过程中定期小测,调整学习策略。
-
数据集的复杂性与争议
这些分类在LLM领域存在一些争议。例如,“训练数据集”可能指预训练和微调数据的组合,但实际操作中它们是不同阶段的数据。偏好数据集的可用性有时有限,因为它们可能包含敏感信息,引发隐私和伦理问题。此外,评估数据集的选择可能影响模型性能的比较,存在标准化和公平性的争议。
典型示例的详细列表
每个类别的数据集示例(摘自相关研究)
数据集类别 | 典型示例 | 描述 |
---|---|---|
预训练数据集 | Common Crawl | 数TB的网页文本,用于训练如GPT-3、LLaMA模型 |
The Pile | 800 GB,22个高质数据集组合,用于GPT-Neo、LLaMA | |
Wikipedia | 19.88 GB(英语),用于RoBERTA、XLNET、LLaMA | |
微调数据集 | SQuAD | 问答任务数据集,用于微调问答模型 |
GLUE | 语言理解任务集合,用于微调语言理解能力 | |
Alpaca | 指令跟随数据集,用于微调模型跟随自然语言指令 | |
偏好数据集 | Anthropic HH Golden | 高质量人-人对话,用于RLHF训练奖励模型 |
评估数据集 | GLUE | 通用语言理解评估,用于模型性能比较 |
SuperGLUE | 更具挑战性的任务集合,用于评估模型能力 | |
MMLU | 大规模多任务语言理解,用于测试跨学科知识 |
预训练数据集的详细列表
数据集名称 | 描述 | 大小 | 用于训练模型 | 来源URL |
---|---|---|---|---|
Common Crawl | 每月发布的数十亿网页原始数据 | 数TB | GPT-3, LLaMA, OpenLLaMa, T5 | Common Crawl |
The Pile | 22个多样化高质数据集组合,主要学术/专业 | 800 GB | GPT-Neo, LLaMA, OPT | The Pile |
Wikipedia | 清理后的维基百科文本数据,默认英语19.88 GB | 19.88 GB (英语) | Roberta, XLNet, LLaMA | Wikipedia |
BookCorpus | 11,000本未出版书籍的文本数据 | 985百万单词 | RoBERTA, XLNET, T5 | BookCorpus |
C4 | 从Common Crawl提取的英语语料,高度去重 | 750 GB | MPT-7B, T5 | C4 |
RefinedWeb | 从Common Crawl提取的600B tokens公共数据,去重和过滤 | >5万亿tokens | Falcon-40B | RefinedWeb |
ROOTS | 59种语言的多语言数据集,从各种来源去重 | 1.6TB | BLOOM | ROOTS |
Red Pajama | 复制LLaMa数据集,从Common Crawl、C4、GitHub等来源 | 1.2万亿tokens | MPT-7B, OpenLLaMA | Red Pajama |
Starcoder Data | 86种编程语言的代码,从GitHub/Jupyter提取,250B tokens | 783 GB | Salesforce CodeGen, Starcoder, StableCode | Starcoder Data |
微调数据集的示例
数据集名称 | 描述 | 大小/细节 | URL |
---|---|---|---|
HelpSteer | 人类编写的自驾车指令集合 | 140万指令 | HelpSteer |
H2O LLM Studio | 提供跨领域微调LLM的多样化数据集平台 | 包括客户服务、金融、医疗;提供评估/部署工具 | H2O LLM Studio |
No_Robots | 排除机器人/AI引用的人类编写文本集合 | 未指定 | No_Robots |
Anthropic HH Golden | 高质量人-人对话集合 | 未指定 | Anthropic HH Golden |
Function Calling Extended | 代码片段和对应函数调用的集合 | 未指定 | Function Calling Extended |
DOLMA | 文档及其逻辑形式的集合 | 未指定 | DOLMA |
Open-Platypus | 提示和对应响应的集合,用于评估LLM性能 | 未指定 | Open-Platypus |
Puffin | “你宁愿”游戏的问答集合 | 未指定 | Puffin |
LLaMA-Factory | 提供跨领域微调LLM的仓库 | 包括语言建模、问答、摘要化 | LLaMA-Factory |
Pile | EleutherAI整理的文本和代码大规模数据集 | 未指定 | Pile |
需要注意的是,某些数据集如The Pile可能同时用于预训练和微调,具体使用取决于上下文。
复杂性与争议
这些分类在LLM领域存在一些争议。例如,“训练数据集”可能指预训练和微调数据的组合,但实际操作中它们是不同阶段的数据。偏好数据集的可用性有时有限,因为它们可能包含敏感信息,引发隐私和伦理问题。此外,评估数据集的选择可能影响模型性能的比较,存在标准化和公平性的争议。
小结
总之,与大模型相关的数据集包括训练数据集(预训练、微调和偏好数据集)、测试数据集(评估数据集)和验证数据集。每个类别在模型开发中都有独特的作用,从基础训练到性能优化和用户对齐。这些分类的复杂性反映了LLM领域的动态性和多样性。
关键引文
-
Open-Sourced Training Datasets for Large Language Models (LLMs) 9 Open-Sourced Datasets
-
A Guide to 400+ Categorized Large Language Model(LLM) Datasets Comprehensive Survey
-
10 Datasets for Fine-Tuning Large Language Models Detailed List
-
Datasets for Large Language Models A Comprehensive Survey
-
GLUE Benchmark Evaluation Dataset for LLMs
-
Common Crawl Large Web Text Corpus
-
The Pile Diverse Language Modeling Dataset
-
Wikipedia Cleaned Text Data for Pretraining
-
BookCorpus Large Novel Books Collection
-
C4 English Corpus from Common Crawl
-
RefinedWeb Deduplicated Tokens from Common Crawl
-
ROOTS Multilingual Dataset from Various Sources
-
Red Pajama Replication of LLaMa Dataset
-
Starcoder Data Code from 86 Programming Languages
-
HelpSteer Human-Written Instructions for Self-Driving Cars
-
H2O LLM Studio Platform for Fine-Tuning LLMs
-
No_Robots Human-Written Text Excluding AI References
-
Anthropic HH Golden High-Quality Human-Human Conversations
-
Function Calling Extended Code Snippets and Function Calls
-
DOLMA Documents and Logical Forms Collection
-
Open-Platypus Prompts and Responses for LLM Evaluation
-
Puffin Questions and Answers from Would You Rather Game
-
LLaMA-Factory Repository for Fine-Tuning LLMs