Ollama安装部署及加载自定义量化Qwen大模型

好大一坨坨

已于 2025-01-25 15:40:01 修改

阅读量1.1k

点赞数 7

CC 4.0 BY-SA版权

分类专栏：大模型文章标签：人工智能语言模型

于 2025-01-25 15:03:37 首次发布

本文链接：https://blog.csdn.net/weixin_46316820/article/details/145355385

大模型专栏收录该内容

9 篇文章

订阅专栏

1.下载安装Ollama

curl -L https://ollama.com/download/ollama-linux-amd64.tgz -o ollama-linux-amd64.tgz
sudo tar -C /usr -xzf ollama-linux-amd64.tgz

2.ollama基本命令

# 启动 Ollama 服务
ollama serve

# 查看启动状况
ollama -v

# 运行模型
ollama run <模型名称>

# 删除本地已下载的模型
ollama rm <模型名称>

# 创建自定义模型
ollama create <自定义模型名称> --file <Modelfile路径>

# 停止Ollama服务
ollama stop

# 列出本地模型
ollama list

3.加载自定义模型

Qwen/Qwen1.5-1.8B-Chat 模型为例子

3.1 下载模型

参考上一文章

3.2 量化转成GGUF格式

GGUF介绍：上一文章

python convert_hf_to_gguf.py /home/llm/ai/model/Qwen/Qwen1___5-1___8B-Chat --outtype q8_0 --verbose --outfile /home/llm/ai/model/Qwen/Qwen1___5-1___8B-Chat-gguf_q8_0.gguf

如下

3.3 定义ModelFile文件

ModelFile文件内容

FROM /home/llm/ai/model/Qwen/Qwen1___5-1___8B-Chat-gguf_q8_0.gguf

3.4 创建模型

ollama create Qwen1___5-1___8B-Chat-gguf_q8_0 --file ./ModelFile

3.5 运行模型

ollama run Qwen1___5-1___8B-Chat-gguf_q8_0

结果

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

好大一坨坨

关注关注

7
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

使用 Ollama 、 DeepSeek和QWEN的模型上下文协议 (MCP) ，使用本地 LLM 教程的 MCP 服务器

iCloudEnd的博客

04-06

740

模型上下文协议：MCP 服务器据称是 AI 领域的下一个重大改变者，它将使 AI 代理变得比我们想象的更加先进。MCP 或模型上下文协议由 Anthropic 去年发布，它可以帮助 LLM 连接软件并对其进行控制。但有一个问题大多数 MCP 服务器都与 Claude AI 兼容，尤其是 Claude AI 桌面应用程序，但它们有自己的限制。有没有办法我们可以使用本地 LLM 运行 MCP 服务器？

开源模型应用落地-qwen模型小试-Qwen2.5-7B-Instruct-玩转ollama-Modelfile文件（二）

以微薄之力，予他人些许温暖.

10-29

7192

通过使用Modelfile，Ollama能够简化模型的管理和部署，使得用户能够更方便地进行模型的加载、运行和版本控制。

参与评论您还未登录，请先登录后发表或查看评论

一文看懂Ollama部署、训练、量化、格式转换

杨若瑜的技术博客

02-07

5508

在 Ollama 的部署方面，我们详细了解了 MacOS、Windows 和 Linux 系统下的下载安装方法，以及环境变量设置、服务启动等基础配置步骤。通过 “ollama pull” 和 “ollama run” 等命令，能够轻松下载并运行所需的模型，为后续的训练、量化和转化工作奠定了基础。训练过程中，环境搭建是关键，包括 CUDA、Pytorch GPU 版本和 cuDNN 的安装，这些工具为模型训练提供了强大的计算支持。合理选择数据集并进行预处理和划分，能够让模型学习到更有效的知识。

为Ollama添加本地自定义（非官方仓库）模型详细教程

yulixixi的博客

12-23

1962

为docker内的Ollama添加本地自定义（非官方仓库）模型详细教程

Ollama的自定义安装，配置环境变量与使用

热门推荐

spiderwower的博客

05-06

1万+

根据ollama官方文档，创建自定义大模型

ollama运行自定义模型

勇往直前！

04-24

6120

GGUF(Georgi Gerganov Unifed Format)是llama.cpp提出的一种格式标准，用于储存模型的tokenizer & weight & vocab & hyparameters，其表现形式为一个二进制文件，例如gml-model-f16.gguf。ollama 可以直接加载gguf文件后缀的模型这些模型，你可以通过下面两个站点搜索即可。ollama有默认的模型，那么怎么运行自定义模型，自己选择下载模型，然后运行呢。运行你的模型： ollama run [xxxname]即可。

AI大模型企业应用实战：Prompt让LLM理解知识

2401_84204413的博客

06-25

2706

Ollama本地部署自定义大模型

摇光65535的博客

10-07

3577

Ollama是一个专为本地机器设计的开源框架，旨在简化大型语言模型（LLM）的部署和运行过程。本文将使用Ollama来实现llama-3.1大模型的本地化部署。

Ollama部署大模型详解

topfine的博客

04-11

1388

Ollama的优势在哪里? 如何启动Ollama 配置适合自己Ollama 加载本地模型的方法

Ollama自定义模型

王小工小工历程

05-27

1160

Ollama 提供多种自定义模型的方式：1) 支持通过GGUF文件导入模型，只需下载量化模型文件并创建Modelfile即可运行；2) 通过Modelfile定义角色模板，可调整生成参数、设置系统提示和对话格式；3) 支持模型微调与适配器集成，兼容主流架构和格式；4) 提供图形界面工具如Ollama Desktop和Open WebUI，便于可视化管理和交互。操作步骤包括创建配置文件、参数调整和命令行部署，支持从基础模型创建定制版本，满足不同场景需求。

ollama加载本地自定义模型

YXWik的博客

04-10

766

因为我们自己微调好的模型呢就是我们自定义的模型了，这个ollama官方不支持咱自己微调的模型，而且我们微调好的模型也不想泄露出去，所以我们就需要这个自定义模型首先要新建一个Modelfile文件，这个文件放哪里都行，最好跟ollama模型放一块我这里放到了下起名叫的内容注册模型成功注册成功后进行使用。

有手就行，轻松本地部署 Llama、Qwen 大模型，无需 GPU

python12345678_的博客

07-02

3690

没有消费级的 GPU，竟然都可以拥有自己的本地大模型。部署过程基本上没有卡点，一台普通的 Mac 就能搞定，太香了~想学习什么，欢迎留言告诉我。。

使用Ollama简单部署本地Qwen2

一个今天胜过两个明天

06-11

3652

Ollama 是一个开源的、本地运行的 AI 聊天模型，允许在自己的设备上运行 LLM，无需依赖云服务。运行完成后就可以和大模型对话了，不过ollama 只有命令行模式运行，这里我下载了chatbox软件来运行，打开软件模型设置选择ollama 以及对应的ollama模型。windows下选择exe ，然后运行安装，安装完成后。1.5b就是对应安装Qwen2 1.5b大模型，如果使用7b 就是 ollama run qwen2:7b。首先安装ollama，访问官网下载 ollama 对应版本。

Ollama 安装 QWen3 及配置外网访问指南

m0_60414444的博客

04-30

1655

ollama -v确保为最新版本 0.6.6。

学习笔记：使用Ollama项目快速本地化部署Qwen 1.5模型

weixin_42118737的博客

05-16

6208

本文记录了采用Ollama项目快速本地部署运行qwen1.5模型。

【AI大模型】llama.cpp模型量化（本地） + ollama部署（docker）（超详细实况二）

huang9604的博客

10-29

3194

【AI大模型】llama.cpp模型量化（本地） + ollama部署（docker）（超详细实况二）

ollama运行量化模型

m0_67450301的博客

02-23

284

ollama部署量化模型

使用ollama本地部署qwen2并api调用

m0_62458145的博客

10-22

4216

Ollama 是一个开源的、本地运行的 AI 聊天模型，允许在自己的设备上运行 LLM，无需依赖云服务。目前Ollama library已经支持Qwen2，可以直接使用。windows下选择exe ，然后运行安装，安装完成后。首先安装ollama，访问官网下载 ollama 对应版本 Download Ollama on macOS。等待模型下载，下载的模型速度取决您的网络速度。模型启动完成，这样我们就可以实现模型推理了。查阅官方的api参考文档，得到使用说明。使用ollama 命令行窗口推理。

ollama部署qwen2.5- omni

03-30

### 部署 Qwen2.5-Omni 模型至 Ollama 平台为了成功将 Qwen2.5-Omni 模型部署到 Ollama 平台上，以下是详细的配置说明和技术要点： #### 1. 准备环境并安装必要库在开始之前，需确保本地环境中已安装所需的 Python 库来支持模型的下载与管理。可以通过以下命令完成依赖项的安装： ```bash pip install transformers # 提供预训练模型架构和工具[^1] pip install accelerate # 加速模型训练和推理 pip install modelscope # 支持模型下载与管理 ``` 这些库能够帮助加载、优化以及加速大型语言模型的操作。 #### 2. 下载 Qwen2.5-Omni 模型文件通过 ModelScope 或其他官方渠道获取目标模型权重文件。具体操作可以参考魔搭平台上的文档指引[^2]。如果选择手动方式，则需要指定存储路径并将模型保存为 `.bin` 文件或其他兼容格式。 #### 3. 转换模型结构适配 Ollama 由于 Ollama 对特定框架有独特需求（例如 GGML/GGUF），因此可能涉及转换过程。此阶段通常利用开源脚本实现，比如 `transformers` 中提供的导出功能或者社区贡献的相关工具包。执行如下代码片段用于生成适合导入的目标二进制数据集： ```python from transformers import AutoTokenizer, AutoModelForCausalLM import torch model_id = 'qwen/Qwen2.5-Omni' # 替换实际 ID 地址 tokenizer = AutoTokenizer.from_pretrained(model_id) model = AutoModelForCausalLM.from_pretrained( model_id, trust_remote_code=True, low_cpu_mem_usage=True ) # 导出量化后的版本给 Ollama 使用 output_path = './ollama_model' torch.save({ 'state_dict': model.state_dict(), }, f'{output_path}/pytorch_model.bin') print(f'Model saved to {output_path}') ``` 注意上述方法适用于 PyTorch 架构下的实例化对象；对于不同后端引擎，请调整相应参数设置。 #### 4. 启动 Ollama 服务并与新加入模块集成最后一步是在运行态容器内引入刚创建好的自定义资产，并验证其可用状态。假设已经具备基础镜像构建流程的知识背景，在 Dockerfile 添加类似这样的指令即可完成最终组装环节： ```dockerfile COPY ./ollama_model /app/models/qwen2_5_omni/ RUN ollama build --format ggmlv3 qwen2_5_omni CMD ["ollama", "serve"] ``` 至此整个迁移周期结束，用户可通过 RESTful 接口调用该实例参与对话交互任务。 ---