# 使用 Micromamba 安装 vLLM 并运行最小模型(facebook/opt-125m)

🛠️ 环境准备

  • 系统:Ubuntu
  • Python 版本:3.10
  • 包管理器:Micromamba
  • GPU:NVIDIA(CUDA 支持)

📦 创建环境并安装 vLLM

# 创建 micromamba 环境
micromamba create -n vllm python=3.10

# 激活环境
micromamba activate vllm

# 设置国内镜像(可选)
pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple

# 安装 vllm(安装到指定缓存/构建目录)
pip install vllm   --cache-dir /www/pip-cache   --build /www/tmp

🧩 配置 HuggingFace 镜像和缓存

# 设置模型下载缓存目录
echo 'export HF_HOME=/www/vllamodels' >> ~/.bashrc
echo 'export TRANSFORMERS_CACHE=/www/vllamodels' >> ~/.bashrc

# 使用清华镜像或 HF-Mirror 镜像加速模型下载
echo 'export HF_ENDPOINT=https://hf-mirror.com' >> ~/.bashrc

# 生效环境变量
source ~/.bashrc

🔧 权限配置(如用 root 格式化了 /www)

# 确保 ubuntu 用户有写入权限
sudo chown -R ubuntu:ubuntu /www

✅ 验证 vLLM 是否安装成功

python -c "import vllm; print(vllm.__version__)"
# 输出示例:0.9.0

🧪 编写并运行最小示例

main.py 示例:

from vllm import LLM, SamplingParams

def main():
    llm = LLM(model="facebook/opt-125m")
    prompt = "Hello, vllm!"
    sampling_params = SamplingParams(max_tokens=20)
    outputs = llm.generate(prompt, sampling_params)
    for output in outputs:
        print("生成文本:", output.outputs[0].text)

if __name__ == "__main__":
    main()

运行:

python main.py

首次运行将会自动下载模型,并显示初始化过程,最终输出生成的文本。


💻 Gradio Web 接口小 Demo

import gradio as gr
from vllm import LLM, SamplingParams

llm = LLM(model="facebook/opt-125m")
params = SamplingParams(max_tokens=100)

def chat(prompt):
    outputs = llm.generate(prompt, params)
    return outputs[0].outputs[0].text

gr.Interface(fn=chat, inputs="text", outputs="text", title="vLLM Chatbot").launch()

📂 目录结构参考

/www
├── pip-cache/              # pip 缓存
├── tmp/                    # 构建目录
├── vllamodels/             # HuggingFace 模型缓存目录
├── vllmpros/
│   └── main.py             # 示例程序

🎉 成功运行示例

生成文本: Hello, vllm! How can I help you today?

🔚 总结

vLLM 是一个支持高效推理的大模型部署框架,配合 HuggingFace 模型可快速上手测试。结合 micromamba、HF-mirror 镜像、权限配置等技巧可在内网服务器顺利部署。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

老大白菜

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值