研究：用于训练大型语言模型的数据集往往缺乏透明度

研究人员开发了一种易于使用的工具，使人工智能从业人员能够找到适合其模型目的的数据，从而提高准确性并减少偏差。

在这里插入图片描述
这款名为 “数据出处资源管理器”(Data Provenance Explorer) 的新工具可以帮助从业人员在训练模型时对数据做出更明智的选择。

为了训练更强大的大型语言模型，研究人员使用了大量的数据集，这些数据集融合了来自成千上万网络来源的各种数据。

但是，当这些数据集被组合并重新组合成多个数据集时，有关其来源和使用限制的重要信息往往会丢失或被混淆。

这不仅会引发法律和道德问题，还会损害模型的性能。例如，如果数据集分类不当，那么为某项任务训练机器学习模型的人最终可能会无意中使用了并非为该任务设计的数据。

此外，未知来源的数据可能包含偏差，导致模型在部署时做出不公平的预测。为了提高数据的透明度，来自麻省理工学院和其他大学的多学科研究团队对流行托管网站上的 1800 多个文本数据集进行了系统审计。他们发现，这些数据集中有70%以上遗漏了一些许可信息，而大约50%的信息存在错误。基于这些发现，他们开发了一种名为 "数据出处资源管理器 "的用户友好型工具，可以自动生成数据集的创建者、来源、许可和允许用途的易读摘要。

麻省理工学院教授、麻省理工学院媒体实验室人类动力学小组（Human Dynamics Group）负责人亚历克斯-潘特兰（Alex “Sandy” Pentland）说：“这类工具可以帮助监管者和从业者就人工智能的部署做出明智的决策，并进一步推动人工智能负责任的发展。”

《对人工智能中的数据集许可和归属进行大规模审计》

数据出处资源管理器可以帮助人工智能从业者选择符合其模型预期目的的训练数据集，从而建立更有效的模型。从长远来看，这可以提高人工智能模型在现实世界中的准确性，例如用于评估贷款申请或回答客户询问的模型。

“要了解人工智能模型的能力和局限性，最好的方法之一就是了解它是根据什么数据训练出来的。”，麻省理工学院人类动力学小组研究生、哈佛大学法学院法学博士候选人罗伯特-马哈里（Robert Mahari）是这篇论文的共同第一作者。

与马哈里和彭特兰共同撰写论文的还有共同第一作者、媒体实验室研究生谢恩-朗普雷（Shayne Longpre），领导人工智能研究实验室 Cohere 的萨拉-胡克（Sara Hooker），以及麻省理工学院、加州大学欧文分校、法国里尔大学、科罗拉多大学博尔德分校、奥林学院、卡内基梅隆大学、Contextual AI、ML Commons 和 Tidelift 的其他研究人员。这项研究发表在今天的《自然-机器智能》（Nature Machine Intelligence）杂志上。

专注于微调

研究人员经常使用一种名为微调的技术来提高大型语言模型的能力，该模型将被部署用于特定任务，如问题解答。在进行微调时，他们会精心建立一些数据集，以提高模型在这一任务中的性能。麻省理工学院的研究人员重点研究了这些微调数据集，这些数据集通常由研究人员、学术组织或公司开发，并获得了特定用途的许可。当众包平台将这些数据集汇集成更大的数据集供从业人员用于微调时，一些原始许可信息往往会被遗忘。马哈里说：“这些许可应该是重要的，而且应该是可执行的。”

例如，如果数据集的许可条款有误或缺失，有人可能会花费大量金钱和时间开发一个模型，但由于某些训练数据包含隐私信息，他们可能会在之后被迫取消该模型。 Longpre 补充说：“人们在训练模型时，可能根本不了解这些模型的功能、问题或风险，而这些问题和风险最终都源自数据。” 在这项研究开始时，研究人员将数据出处正式定义为数据集的来源、创建和许可遗产及其特征的组合。在发现这些数据集中有超过70%的数据包含 "未指定 "的许可证，遗漏了很多信息后，研究人员开始逆向填补空白。通过努力，他们将包含 "未指定 "许可证的数据集数量减少到了 30%左右。他们的工作还发现，正确的许可证往往比资源库指定的许可证更具限制性。

此外，他们还发现，几乎所有数据集的创建者都集中在全球北部地区，这可能会限制模型在不同地区部署时的能力。例如，一个主要由美国和中国人创建的土耳其语数据集可能不包含任何具有文化意义的内容，马哈里解释说，"我们几乎自欺欺人地认为数据集比实际情况更加多样化，"他说。有趣的是，研究人员还发现，2023年和2024年创建的数据集受到的限制急剧增加，这可能是由于学者们担心他们的数据集可能被用于非预期的商业目的。

方便用户使用的工具

为了帮助其他人在无需人工审核的情况下获取这些信息，研究人员建立了数据出处资源管理器。除了根据特定条件对数据集进行排序和过滤外，该工具还允许用户下载数据出处卡，该卡提供了对数据集特征的简洁、结构化概述。我们希望这是一个步骤，不仅能了解现状，还能帮助人们在今后的训练中对数据做出更明智的选择，"马哈里说。未来，研究人员希望扩大分析范围，研究包括视频和语音在内的多模态数据的数据出处。在扩大研究范围的同时，他们还将与监管机构联系，讨论他们的发现以及微调数据对版权的独特影响。

Longpre 说：“当人们创建和发布这些数据集时，我们从一开始就需要数据出处和透明度，以便其他人更容易获得这些见解。”

“许多拟议的政策干预措施都假定我们能够正确分配和识别与数据相关的许可证，而这项工作首先表明事实并非如此，然后大大改进了可用的出处信息，”， EleutherAI 执行总监斯特拉-比德曼（Stella Biderman）说，她没有参与这项工作。 "此外，第 3 部分还包含相关的法律讨论。这对于那些规模足够大、拥有专门法律团队的公司之外的机器学习从业者来说非常有价值。目前，许多想为公益事业建立人工智能系统的人都在默默地苦苦思索如何处理数据许可问题，因为互联网的设计方式并没有让数据出处变得容易弄清楚。“

研究：用于训练大型语言模型的数据集往往缺乏透明度

专注于微调

方便用户使用的工具

最新新闻

热搜词

研究： 用于训练大型语言模型的数据集往往缺乏透明度

专注于微调

方便用户使用的工具

最新新闻

热搜词

研究：用于训练大型语言模型的数据集往往缺乏透明度