使用镜像源下载Hugging Face模型

本文介绍了一种方法,如何在国内网络环境下或科学上网情况下,更有效地从HuggingFaceModelHub下载大型模型参数。作者提供了使用gitlfs、脚本下载和个性化设置的详细步骤,旨在节省研究者的时间,专注于核心工作。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

        使用国内的网络甚至使用科学上网在hugging face中transformer上下载模型参数往往会失败,这个时候就需要我们手动去hugging face的model hub中下载需要的模型参数,这样十分费时费力。本博客旨在解决这个问题,使研究者们在使用模型下载模型参数上少花时间,将更多的精力花费在更有价值的地方。

方法:

主要参考

(11 封私信 / 78 条消息) 如何看待huggingface.co已无法访问? - 知乎 (zhihu.com)

我结合博文以及评论大神给的代码,构建了属于自己的下载模型方法。

1. 下载git lfs

这个东西用来下载大的模型权重文件,比如几个G的pytorch_model.bin文件,我的这个场景是linux,不知道windows需不需要。下载这个东西的方法有很多,搜索git lfs安装一大堆,这里我是在实验室服务器上,没有sudo权限,用的和这个从local user安装到使用的git-lfs采坑小结 - 一个兔子洞 | Y's Blog (hua-ys.github.io)差不多的方法。主要的点是1.将install.sh文件prefix后面的路径修改为local user下的自定义路径 2.bash xxx/install.sh之后一定要注意要有export PATH=$PATH:your_path这个命令,比如你install xxx/install.sh之后,安装到了自定义的路径/home/xxx/git-lfs/bin/git-lfs,要在终端使用export PATH=$PATH:/home/xxx/git-lfs/bin导入到全局变量里(这是我踩过的坑和大家说一下)

2. 在要下载模型配置的文件夹下使用 git lfs install

这一步的命令是为了把这个文件夹变成一个git文件夹,便于从网上拉取文件

3. 使用脚本下载模型文件

脚本在这里Command-line Tool for Easy Downloading of Huggingface Models (github.com)

我直接跑这个脚本因为网络的原因跑不通,需要对脚本稍作修改,改成下图所示,使用镜像网站。

图1 修改hdf.sh文件

 然后使用下面这条命令,在终端里跑

xxx/hdf.sh meta-llama/Llama-2-7b --hf_username xxx --hf_token xxx

这里给了个例子,把上面的“meta-llama/Llama-2-7b”换成你要的模型配置路径, hf_username换成你hugging face账号的user name,hf_token换成你账号中的token,在这里可以查看到Hugging Face – The AI community building the future.

通过上面的步骤就可以下载模型啦!希望这篇博客在帮助我自己回忆解决方案的同时,对大家也有点帮助!

### 如何从Hugging Face下载模型文件 #### 使用官方客户端库自动下载 为了简化流程并确保兼容性,推荐使用Hugging Face提供的Python库`transformers`来获取预训练模型及其配套资源。安装此库之后,在脚本里指定所需模型名称即可实现自动化加载过程[^2]。 ```python from transformers import AutoModelForSequenceClassification, AutoTokenizer model_name = "bert-base-uncased" tokenizer = AutoTokenizer.from_pretrained(model_name) model = AutoModelForSequenceClassification.from_pretrained(model_name) ``` 这段代码不仅能够处理模型本身的下载工作,还会同步拉取必要的分词工具及相关配置文档,比如`config.json`, `vocab.txt`以及可能存在的额外组件如`special_tokens_map.json`等[^4]。 #### 手动下载方法 对于那些希望完全掌控下载细节或是遇到网络问题的情况,则可以选择手动方式: 访问[Hugging Face模型页面](https://huggingface.co/models),定位至目标模型条目下(例如`bert-uncased`),点击进入详情页后可以看到一系列可供单独选取的文件链接。用户可以根据实际需求挑选特定版本或组成部分进行保存,并按照指示将其放置于本地缓存目录内(通常是`~/.cache/huggingface/transformers`)[^1]。 如果是在Linux环境下遭遇下载障碍,可以通过设定环境变量指向备用镜像站点的方法绕过原生源站限制。执行如下指令可更改默认请求地址为国内加速节点,从而提高成功率和速度[^5]: ```bash export HF_ENDPOINT="https://hf-mirror.com" echo $HF_ENDPOINT # 验证设置是否成功应用 ``` 需要注意的是上述变更仅限于当前shell session期间有效;若要持久化修改则需进一步编辑`.bashrc`或其他初始化脚本文件。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值