【问题描述】datasets.exceptions.DatasetGenerationError: An error occurred while generating the dataset
使用load_dataset读取在HuggingFace上的数据集,代码如下
from transformers import pipeline
from transformers import Trainer, TrainingArgumentsimport os
os.environ["http_proxy"] = "http://127.0.0.1:7890"
os.environ["https_proxy"] = "http://127.0.0.1:7890"from datasets import load_datasetraw_datasets = load_dataset("glue", "mrpc")
raw_datasets
用pip install datasets
直接装了库,然后一运行就报错了
【问题解决】
本文原先的datasets是2.13.1
将其降低版本为2.1.0就好了
# 尝试降级到一个更稳定的版本
pip install datasets==2.1.0
【其他解决办法】
- 清理缓存:删除 Hugging Face 缓存文件夹中与 glue 相关的数据,以确保加载的是最新的数据集文件。默认的缓存路径是 ~/.cache/huggingface/datasets,你可以删除该文件夹下 glue 相关的内容,然后重新运行代码。
from datasets import load_dataset
import shutil
import os# 删除特定数据集的缓存
cache_dir = os.path.expanduser("~/.cache/huggingface/datasets")
glue_cache_path = os.path.join(cache_dir, "glue")
if os.path.exists(glue_cache_path):shutil.rmtree(glue_cache_path)# 重新加载数据集
raw_datasets = load_dataset("glue", "mrpc")
print(raw_datasets)
2.升级datasets
pip install --upgrade datasets
# 或者如果升级不奏效,尝试降级到一个更稳定的版本
pip install datasets==2.1.0