Hugging Face Hub 强大的机器学习数据源及解决下载问题的方法

释放双眼,带上耳机,听听看~!
Hugging Face Hub 提供强大的机器学习数据源,但下载数据集时可能会遇到ConnectionError等问题。本文介绍了解决下载问题的方法,包括调节timeout、使用特殊上网方式、以及利用特定配置进行数据集下载。

Hugging Face Hub 是强大的机器学习的数据源。相信大家在国内用 Hugging Face Datasets 都遇到过下载的问题。譬如:

import datasets dataset = datasets.load_dataset("codeparrot/self-instruct-starcoder", cache_dir="./hf_cache")

⌛ 结果下载到一半:

ConnectionError: Couldn't reach https://huggingface.co/datasets/codeparrot/self-instruct-starcoder/resolve/fdfa8ceb317670e982aa246d8e799c52338a74a7/data/curated-00000-of-00001-c12cc48b3c68688f.parquet (ConnectionError(ProtocolError('Connection aborted.', ConnectionResetError(104, 'Connection reset by peer'))))

😔 到昨天为止,我的方法还是重新启动下载脚本或者提前把数据放到本地……直到昨天要下载一个大的数据集,实在受不了 🤯。于是去看了一下文档:hf.co/docs/datase…

🚪 于是我打开了新世界的大门:

import datasets config = datasets.DownloadConfig(resume_download=True, max_retries=100) dataset = datasets.load_dataset"codeparrot/self-instruct-starcoder", cache_dir="./hf_cache", download_config=config )

🤱 再也不用担心下载不了数据集啦!

🤔 PS: 目前还有不少上传下载的问题没有解决:

  • 初始化数据集下载是容易 ConnectionError,这个可能需要调节 timeout 或者使用特殊上网方式

  • push_to_hub 没有断点续存和 retry 的机制

如果大家有什么更好的解决方案,欢迎交流 🙂

本网站的内容主要来自互联网上的各种资源,仅供参考和信息分享之用,不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益,请联系我们,我们将尽快采取行动,包括删除或更正。
AI教程

使用机器学习预测房价的Python代码示例

2023-11-25 9:56:14

AI教程

深度学习概念与神经网络基础

2023-11-25 10:14:14

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索