【GLM-4部署实战】GLM-4-9B-Chat模型之对话机器人部署测试

最新推荐文章于 2025-08-30 17:39:40 发布

原创最新推荐文章于 2025-08-30 17:39:40 发布 · 584 阅读

25 ·

CC 4.0 BY-SA版权

文章标签：

#机器人 #人工智能 #AIGC #语言模型 #AI编程 #开源 #大模型教程

AI大模型同时被 2 个专栏收录

50 篇文章

订阅专栏

大模型教程

50 篇文章

订阅专栏

引言

在人工智能的浪潮中，对话机器人作为人机交互的重要形式，正逐渐渗透到我们生活的方方面面。GLM-4-9B-Chat模型，以其强大的语言处理能力，为构建智能对话系统提供了坚实的基础。本文将带你一步步完成该模型的部署和测试，让你亲眼见证一个高效对话机器人的诞生。

一、环境准备

我们需要租用一台装有24G显存的显卡机器，例如NVIDIA 4090，以满足模型训练和部署的硬件需求。在挑选镜像时，建议选择PyTorch-2.1.0-3.10(ubuntu22.04)-12.1，这将为我们提供一个稳定且功能丰富的开发环境。完成机器租用流程后，启动JupyterLab并开启终端，开始进行环境配置。
在这里插入图片描述

二、安装依赖

升级pip&配置镜像

python -m pip install --upgrade pip
pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple

安装相关依赖包：

pip install torch>=2.3.0
pip install torchvision>=0.18.0
pip install transformers>=4.42.4
pip install huggingface-hub>=0.24.0
pip install sentencepiece>=0.2.0
pip install jinja2>=3.1.4
pip install pydantic>=2.8.2
pip install timm>=1.0.7
pip install tiktoken>=0.7.0
pip install accelerate>=0.32.1
pip install sentence_transformers>=3.0.1
pip install gradio>=4.38.1 # web demo
pip install openai>=1.35.0 # openai demo
pip install einops>=0.8.0
pip install pillow>=10.4.0
pip install sse-starlette>=2.1.2
pip install bitsandbytes>=0.43.1 # INT4 Loading

三、模型下载

使用 modelscope 中的 snapshot_download 函数下载模型。第一个参数为模型名称，参数 cache_dir 用于指定模型的下载路径。

import torch
from modelscope import snapshot_download, AutoModel, AutoTokenizer
import os
model_dir = snapshot_download('ZhipuAI/glm-4-9b-chat', cache_dir='/root/autodl-tmp', revision='master')

在 /root/autodl-tmp 路径下新建 download-model.py 文件，并在其中输入以上内容：
在这里插入图片描述

运行 python /root/autodl-tmp/download-model.py 执行下载。需注意，模型大小约为 18 GB，下载模型大概需要 10 - 20 分钟，请耐心等待。
在这里插入图片描述

四、代码准备

在 /root/autodl-tmp 路径下新建 trans_web_demo.py 文件，并在其中输入以下内容：

"""
此脚本使用Gradio为GLM-4-9B模型创建了一个交互式Web演示，
Gradio是一个用于为机器学习模型构建快速且易于使用的UI组件的Python库。
它旨在通过用户友好的界面展示GLM-4-9B模型的能力，允许用户通过类似聊天的界面与模型进行交互。
"""

import os
from pathlib import Path
from threading import Thread
from typing import Union

import gradio as gr
import torch
from peft import AutoPeftModelForCausalLM, PeftModelForCausalLM
from transformers import (
    AutoModelForCausalLM,
    AutoTokenizer,
    PreTrainedModel,
    PreTrainedTokenizer,
    PreTrainedTokenizerFast,
    StoppingCriteria,
    StoppingCriteriaList,
    TextIteratorStreamer
)

ModelType = Union[PreTrainedModel, PeftModelForCausalLM]
TokenizerType = Union[PreTrainedTokenizer, PreTrainedTokenizerFast]

MODEL_PATH = os.environ.get('MODEL_PATH', '/root/autodl-tmp/ZhipuAI/glm-4-9b-chat')
TOKENIZER_PATH = os.environ.get("TOKENIZER_PATH", MODEL_PATH)

def _resolve_path(path: Union[str, Path]) -> Path:
    return Path(path).expanduser().resolve()

def load_model_and_tokenizer(
        model_dir: Union[str, Path], trust_remote_code: bool = True
) -> tuple[ModelType, TokenizerType]:
    model_dir = _resolve_path(model_dir)
    if (model_dir / 'adapter_config.json').exists():
        model = AutoPeftModelForCausalLM.from_pretrained(
            model_dir, trust_remote_code=trust_remote_code, device_map='auto'
        )
        tokenizer_dir = model.peft_config['default'].base_model_name_or_path
    else:
        model = AutoModelForCausalLM.from_pretrained(
            model_dir, trust_remote_code=trust_remote_code, device_map='auto'
        )
        tokenizer_dir = model_dir
    tokenizer = AutoTokenizer.from_pretrained(
        tokenizer_dir, trust_remote_code=trust_remote_code, use_fast=False
    )
    return model, tokenizer


model, tokenizer = load_model_and_tokenizer(MODEL_PATH, trust_remote_code=True)

class StopOnTokens(StoppingCriteria):
    def __call__(self, input_ids: torch.LongTensor, scores: torch.FloatTensor, **kwargs) -> bool:
        stop_ids = model.config.eos_token_id
        for stop_id in stop_ids:
            if input_ids[0][-1] == stop_id:
                return True
        return False

def parse_text(text):
    lines = text.split("\n")
    lines = [line for line in lines if line != ""]
    count = 0
    for i, line in enumerate(lines):
        if "```" in line:
            count += 1
            items = line.split('`')
            if count % 2 == 1:
                lines[i] = f'<pre><code class="language-{items[-1]}">'
            else:
                lines[i] = f'<br></code></pre>'
        else:
            if i > 0:
                if count % 2 == 1:
                    line = line.replace("`", "\`")
                    line = line.replace("<", "&lt;")
                    line = line.replace(">", "&gt;")
                    line = line.replace(" ", "&nbsp;")
                    line = line.replace("*", "&ast;")
                    line = line.replace("_", "&lowbar;")
                    line = line.replace("-", "&#45;")
                    line = line.replace(".", "&#46;")
                    line = line.replace("!", "&#33;")
                    line = line.replace("(", "&#40;")
                    line = line.replace(")", "&#41;")
                    line = line.replace("$", "&#36;")
                lines[i] = "<br>" + line
    text = "".join(lines)
    return text

def predict(history, prompt, max_length, top_p, temperature):
    stop = StopOnTokens()
    messages = []
    if prompt:
        messages.append({"role": "system", "content": prompt})
    for idx, (user_msg, model_msg) in enumerate(history):
        if prompt and idx == 0:
            continue
        if idx == len(history) - 1 and not model_msg:
            messages.append({"role": "user", "content": user_msg})
            break
        if user_msg:
            messages.append({"role": "user", "content": user_msg})
        if model_msg:
            messages.append({"role": "assistant", "content": model_msg})

    model_inputs = tokenizer.apply_chat_template(messages,
                                                 add_generation_prompt=True,
                                                 tokenize=True,
                                                 return_tensors="pt").to(next(model.parameters()).device)
    streamer = TextIteratorStreamer(tokenizer, timeout=60, skip_prompt=True, skip_special_tokens=True)
    generate_kwargs = {
        "input_ids": model_inputs,
        "streamer": streamer,
        "max_new_tokens": max_length,
        "do_sample": True,
        "top_p": top_p,
        "temperature": temperature,
        "stopping_criteria": StoppingCriteriaList([stop]),
        "repetition_penalty": 1.2,
        "eos_token_id": model.config.eos_token_id,
    }
    t = Thread(target=model.generate, kwargs=generate_kwargs)
    t.start()
    for new_token in streamer:
        if new_token:
            history[-1][1] += new_token
        yield history

with gr.Blocks() as demo:
    gr.HTML("""<h1 align="center">GLM-4-9B Gradio Simple Chat Demo</h1>""")
    chatbot = gr.Chatbot()

    with gr.Row():
        with gr.Column(scale=3):
            with gr.Column(scale=12):
                user_input = gr.Textbox(show_label=False, placeholder="Input...", lines=10, container=False)
            with gr.Column(min_width=32, scale=1):
                submitBtn = gr.Button("Submit")
        with gr.Column(scale=1):
            prompt_input = gr.Textbox(show_label=False, placeholder="Prompt", lines=10, container=False)
            pBtn = gr.Button("Set Prompt")
        with gr.Column(scale=1):
            emptyBtn = gr.Button("Clear History")
            max_length = gr.Slider(0, 32768, value=8192, step=1.0, label="Maximum length", interactive=True)
            top_p = gr.Slider(0, 1, value=0.8, step=0.01, label="Top P", interactive=True)
            temperature = gr.Slider(0.01, 1, value=0.6, step=0.01, label="Temperature", interactive=True)

    def user(query, history):
        return "", history + [[parse_text(query), ""]]

    def set_prompt(prompt_text):
        return [[parse_text(prompt_text), "成功设置prompt"]]

    pBtn.click(set_prompt, inputs=[prompt_input], outputs=chatbot)

    submitBtn.click(user, [user_input, chatbot], [user_input, chatbot], queue=False).then(
        predict, [chatbot, prompt_input, max_length, top_p, temperature], chatbot
    )
    emptyBtn.click(lambda: (None, None), None, [chatbot, prompt_input], queue=False)

demo.queue()
demo.launch(server_name="127.0.0.1", server_port=6006, inbrowser=True, share=True)

五、启动web chat

使用以下命令启动web服务，将对话机器人部署为一个web应用：

python trans_web_demo.py

启动成功如下：
在这里插入图片描述

六、web chat对话测试

在web chat启动后，进行对话测试以验证机器人的响应能力和交互体验；观察机器人的回答是否准确、合理。
访问地址：http://localhost:6006/
在这里插入图片描述

提问：什么是机器学习？
回复：

机器学习是一种使计算机系统能够从数据中学习和改进的技术。它属于人工智能（AI）的一个子领域。以下是机器学习的几个关键点：
1.定义：机器学习是指让计算机通过数据和经验来自我学习和提高其性能的过程。
2.核心概念：
算法：用于处理数据的数学模型。
训练集：提供给模型的原始数据集合，用于教会模型如何识别模式和做出预测或决策。
测试集/验证集：用来评估模型在未见过的数据上的表现的数据集合。
泛化能力：指模型在新数据上继续准确工作的能力。
3.类型：
监督学习：使用带有标签的训练数据来“教授”模型如何对未知数据进行分类或回归。
无监督学习：没有明确的输出值，系统尝试找出数据中的结构、关联和模式。
半监督学习：结合了有监督和无监督学习方法，使用少量标记数据和大量未标记数据。
强化学习：通过与环境的交互进行学习，并不断优化策略以获得最大化的奖励。
4.应用：机器学习被广泛应用于各种领域中，包括但不限于图像和语音识别、自然语言处理、推荐系统、金融分析、医疗诊断等。
5.挑战：尽管机器学习取得了显著进展，但仍然存在一些挑战，如数据隐私保护、偏见与公平性、可解释性和计算效率问题。
简而言之，机器学习是构建能够执行特定任务并在完成这些任务的性能上自我提升的系统的科学。

效果截图如下：
在这里插入图片描述

零基础入门AI大模型

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

需要的可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】