【国内专供】如何不使用代理服务从hugging face上下载大模型/大型数据集?

中国大陆用户在访问hugging face时可能遇到连接问题,本文提供三种无代理下载大模型的方法:1) 使用modelscope,但仅支持部分热门模型;2) 利用镜像代理下载所需文件;3) 在Python代码中使用`from_pretrained`结合镜像服务。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

前言:中国大陆的朋友会发现hugging face经常无法访问了,特别是在服务器上下载大型模型/数据集,如果先在电脑上下载完再传输到服务器上,对于大模型来说会非常麻烦,这篇博客一共提供了五种有效的方法不使用代理服务从hugging face上下载大模型,帮助读者丝滑下载模型,告别烦恼。

目录

常见报错:requests.exceptions.ConnectionError: (MaxRetryError("HTTPSConnectionPool(host='huggingface.co', port=443)

方案一:modelscope

方法二:镜像代理

方法三:from_pretrained

方法四:modelee

下载大型数据集


常见报错:requests.exceptions.ConnectionError: (MaxRetryError("HTTPSConnectionPool(host='huggingface.co', port=443)

requests.exceptions.ConnectionError: (MaxRetryError("HTTPSConnectionPool(host='huggingface.co', port=443): Max retries e
### 寻找用于大模型微调的数据集 对于大型语言模型的微调,获取合适的数据集至关重要。这些数据集仅应具备足够的规模以支持有效的学习过程,还应当与目标应用领域紧密相关,从而确保经过调整后的模型能够更好地服务于特定的任务需求。 #### 数据库资源平台 多个在线数据库和社区提供了丰富的公开可用数据集合,适用于同类型的自然语言处理任务: - **Hugging Face Datasets**:作为一个广泛使用的开源库,它包含了来自各种来源的大规模高质量语料库,涵盖了文本分类、问答系统等多个方面[^3]。 - **Kaggle Dataset Platform**:该平台上拥有由全球开发者贡献的各种主题的数据集,通过参与竞赛或浏览项目页面可发现大量适合作为训练素材的内容。 - **Google Dataset Search Engine**:谷歌推出的这一搜索引擎允许用户轻松查找学术研究机构发布的结构化元数据记录,帮助定位到合适的公共数据源。 #### 领域专用数据集 针对某些具体应用场景,还可以考虑使用一些专门为某一类问题设计的数据集: - 对于对话系统的构建来说,“DailyDialog”是一个错的选择;而对于机器翻译,则有WMT系列双语对照文件可供利用。 - 如果关注的是情感分析方向,那么像IMDB Reviews这样的电影评论集合就非常适合用来评估模型性能并进行针对性优化。 ```python import datasets # 加载 Hugging Face 上的一个示例数据集 dataset = datasets.load_dataset('imdb') print(dataset['train'][0]) ```
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

沉迷单车的追风少年

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值