【V18.0 - 飞升篇】我把“大模型”装进电脑后，我的AI学会了改稿！—

本文链接：https://blog.csdn.net/qq_35899016/article/details/149148375

在过去的十几篇文章中，我们已经将我们的AI打造成了一个顶级的“分析师”。它能看、能听、能读，能预测多维度的价值指标，甚至能用SHAP解释自己的决策。它很强大，但它的能力，始终停留在“分析”和“诊断”的层面。它能告诉我“你的开头不行”，但无法告诉我“一个好的开头应该怎么写”。

这就像我的副驾驶是一位顶级的F1数据分析师，他能告诉我每个弯道的最佳速度和刹车点，但他自己并不会开车。我需要一次终极的升级，我需要为我的AI请一位真正的‘金牌编剧’和‘创意总监’——大型语言模型（LLM）。
AI大脑

更酷的是，我不想再受制于任何API的费用和网络延迟，我要把这个强大的‘创作大脑’，直接装进我自己的电脑里！今天，我们就来完成这次让AI‘灵魂附体’的飞升之旅。

一、为什么要在本地部署LLM？告别API的“三大束缚”

在ChatGPT以及DeepSeek 各种大模型API风靡全球的今天，为什么我们还要费心在本地部署？因为对于一个高频使用的、严肃的生产力工具来说，API模式有三大难以忍受的“束缚”：

费用的束缚: 顶级的LLM API（如GPT-4,deepseek）调用费用不菲。如果我们每次分析都要调用一次，日积月累，这将是一笔不小的开销。而本地部署，除了前期的一点硬件投入，后续使用成本几乎为零。

网络的束缚: API的响应速度完全取决于你的网络状况和对方服务器的负载。网络一卡，你的“AI总监”就瞬间“掉线”，体验极差。而本地部署，所有计算都在你的电脑上完成，响应速度只取决于你的硬件，稳定、可靠、无延迟。

隐私的束缚: 对于创作者来说，未发布的视频标题、脚本都是核心商业机密。将这些数据发送给第三方API，始终存在数据隐私和安全的顾虑。而本地部署，所有数据都停留在你的硬盘里，绝不离开你的电脑，实现100%的数据安全。

本地部署LLM，就像在你的电脑里建一个‘私人发电站’。你不再需要为每一度‘智慧’付费，也不再担心‘电网’的波动。你拥有了一个永不掉线、绝对忠诚、并且完全免费的超强大脑！

二、AI的“新大脑”选型：为什么是Qwen-14B和Ollama？
要在本地运行LLM，我们需要两个东西：一个强大的模型（大脑）和一个方便的运行框架（生命维持系统）。

大脑的选择：Qwen1.5-14B-Chat
知识密度: 我们需要一个在中英文理解、逻辑推理、尤其是**遵循指令（Instruction Following）**方面都极其出色的模型。阿里巴巴的“通义千问1.5”系列，特别是140亿参数（14B）的版本，是目前这个尺寸下的佼佼者。它足够“聪明”，能够理解我们复杂的Prompt，并按照我们要求的格式，生成高质量的诊断报告和修改建议。

硬件匹配: 更重要的是，它的GGUF量化版本，经过优化后，推理所需的显存大约在10-12GB左右。核心问题是在模型选择以及工作效率，响应速度之间找到一个适合自己的平衡点。

我之前尝试过deepseek，本地部署，小模型回答问题质量太差了，大模型通过思考响应速度太长了。

生命维持系统：Ollama

知识密度: 传统在本地运行LLM，需要手动安装复杂的PyTorch环境、CUDA、cuDNN，处理各种依赖冲突，下载模型权重，再编写复杂的加载和推理脚本。这个过程极其痛苦，能劝退99%的开发者。

Ollama的革命: Ollama将这个过程变成了一场“傻瓜式”的一键安装。它像一个**“AI模型应用商店”和“智能管家”**。

一键下载运行: 你只需要一个命令 ollama run qwen:14b-chat。

GPU自动加速: 它会自动检测你的NVIDIA显卡和CUDA环境，并启用GPU加速。
内置API服务: 最关键的是，它在运行模型后，会自动在本地http://localhost:11434开启一个与OpenAI

API完全兼容的接口！
Ollama的出现，彻底改变了本地AI开发的格局。它让你在本地部署一个百亿参数大模型，变得像安装一个QQ一样简单。你不再需要是深度学习专家，只需要会打一行命令。

之前也使用过lmstudio,带有界面的，但是综合分析，占内存以及方便以及习惯性，最终选择了ollma

三、代码解码：三步，让你的Python应用连接本地AI大脑
现在，让我们进入实操环节。

第一段代码：安装并运行Ollama (在终端)

这是“基建”部分，只需要做一次。

# 第一步: 访问 ollama.com 下载并安装Ollama for Windows

# 第二步: 安装完成后，打开PowerShell或CMD，运行以下命令
# 这个命令会下载并运行Qwen-14B对话模型
# 首次运行会下载一个约8GB的文件，请耐心等待
ollama run qwen:14b-chat

# 第三步: 当你看到 >>> 提示符时，证明模型已成功运行。
# 保持这个终端窗口不要关闭！它是我们的AI服务器。
# 你可以输入中文和它聊聊天，测试一下。

第二段代码：创建Python“连接器” (llm_caller.py)
调用大模型连接器

我们需要一个Python模块，专门负责和我们本地的Ollama API服务进行通信。

# 文件名: llm_caller.py

from openai import OpenAI

# !! 核心 !!: 我们不再连接OpenAI的远程服务器，而是连接我们本地的Ollama
# 使用 127.0.0.1 这个IP地址，可以最稳定地绕过各种网络代理问题
client = OpenAI(
    base_url='http://127.0.0.1:11434/v1',
    api_key='ollama', # 对于Ollama，api_key可以是任意非空字符串
)

def get_llm_suggestions(prompt):
    """调用本地Ollama LLM，并获取返回的建议。"""
    try:
        response = client.chat.completions.create(
            model="qwen:14b-chat", # 确保这个名称与你在Ollama中运行的模型一致
            messages=[
                {"role": "system", "content": "你是一位世界顶级的短视频内容策略专家和金牌编剧。请使用中文回答，并严格遵循用户提供的Markdown格式。"},
                {"role": "user", "content": prompt}
            ],
            temperature=0.7, # 保持一定的创造性
        )
        return response.choices[0].message.content
    except Exception as e:
        error_message = f"调用本地LLM时发生错误: {e}\n\n请确认Ollama服务正在运行。"
        print(error_message)
        return error_message

Ollama最伟大的设计之一，就是它的API与OpenAI完全兼容。这意味着，我们甚至可以直接使用openai官方的Python库来调用它，只需要把base_url指向本地地址，api_key随便填一个即可。这使得所有熟悉OpenAI API的开发者，都可以零成本地切换到本地模型

第三段代码：在主应用中构建“终极Prompt”并调用
现在，我们在app.py中，将所有分析结果，“喂”给我们的get_llm_suggestions函数。
prompt构建

# 在 app.py 的核心分析函数中

# ... (经过前面所有步骤，我们得到了包含所有预测值的predictions字典，和所有AI特征)

def build_ultimate_prompt(title, script, quant_results, llm_lang='zh'):
    # ... (这里是我们之前设计的、包含所有数据和指令的超长Prompt模板)
    report_data = f"""
# 作品基础信息
- 标题: "{title}"
- 完整文案:
\"\"\"
{script}
\"\"\"
# AI量化分析结果
- 开头清晰度得分: {quant_results['visuals']['clarity_score']:.1f}/100
# ... 等等所有量化数据
# AI对作品潜力的预测
- 预测5秒完播率: {quant_results['predictions'].get('retention_5s', 0):.1%}
# ... 等等所有预测数据
"""
    # ... (根据语言选择不同的指令模板)
    return prompt

# --- 调用流程 ---
# 1. 汇总所有量化结果
quant_results = {'visuals': visual_features, 'audio': audio_features, 'script': script_features, 'predictions': predictions}

# 2. 构建终极Prompt
ultimate_prompt = build_ultimate_prompt(title_input, script_input, quant_results, st.session_state.lang)

# 3. !! 最终调用 !!
with st.spinner("AI总监正在审阅并撰写最终报告..."):
    final_report = get_llm_suggestions(ultimate_prompt)

# 4. 展示报告
st.markdown(final_report)

四、眼见为实：当AI开始“说人话”，帮你改稿
AI修改稿件

当我把一个新作品的所有信息都提交给应用后，我看到终端里Ollama的日志在飞速滚动，我的GPU风扇开始轻微加速。几秒钟后，一个由我专属的、本地的AI总监撰写的、包含具体修改意见的报告，出现在了屏幕上！”

“它不再是给我一堆数据，而是像一个真正的总监一样，用自然语言告诉我：
‘总体评价与核心问题: 这个作品的视听质量很棒，但开头太平了，而且标题没有突出核心看点。’
‘开头钩子 -【修改示范】: 我建议你把第一句话从“今天我们来聊聊…”改为“如果我告诉你，有一种方法能让你…你信吗？”’
‘标题优化 -【修改示范】: 1.《…》 2.《…》’

这一刻，我的AI不再是一个分析工具。它‘飞升’了，成为了我的共创伙伴。

五、留下新的篇章
我们已经为AI注入了最强大的“创造性灵魂”。它现在能像一个真正的专家一样，与我们对话、为我们改稿。
但是，一个真正专业的系统，还需要有“产品思维”。它的界面是否足够优雅？交互是否足够流畅？我们之前为了快速实现功能，留下了很多可以优化的UI细节。

我们现在拥有了一个超强的AI内核。但是，一个法拉利的引擎，如果装在一个拖拉机的外壳里，体验也不会好。你们觉得，对于一个AI应用，是‘内核的强大’更重要，还是‘外壳的易用性’更重要？

下一篇，我们将进入一个全新的、充满产品美学和设计巧思的篇章——【V19.0 - 共创篇】我将深入剖析我们那个终极Prompt的设计艺术，并展示如何进一步优化我们的Streamlit界面，让它真正成为一个用起来“赏心悦目”的专业级产品！敬请期待！