雷羿 LexChien-CSDN博客

原创「论文导读」本地部署与隐私保护

「Privacy-Preserving Local Inference for Large Language Models: Techniques and Challenges」是一篇探讨本地LLM推理中隐私保护的学术论文，针对数据泄露风险和硬体限制提出系统性分析。论文介绍了差分隐私、联邦学习和同态加密等技术，评估其在隐私与效能之间的折衷，并探讨长对话和多用户场景的挑战。与「用Go打造本地LLM聊天机器人：整合llm-go与go-llama.cpp」相呼应

2025-07-07 15:42:45 865

原创 Go 语言实现本地大模型聊天机器人：从推理到 Web UI 的全流程

本专案整合 go-llama.cpp 与 llm-go，打造一个可本地部署的 LLM 聊天机器人系统，支援 GGUF 模型推理、Prompt 管理、角色切换与上下文记忆。前端以 Nuxt 3 + Tailwind CSS 建构，实现即时回应与聊天室介面，后端提供 REST API 与 Swagger 文件。

2025-07-06 21:44:26 738

原创为 Go-llm-cpp 接入 Web API 接口，创建 Chatbot 聊天机器人

go-llm-cpp 是一个以 Go 语言打造的本地大语言模型聊天框架，整合了 go-llama.cpp 作为模型推理引擎，并搭配 llm-go 负责 prompt 组装与会话管理。该专案支援 GGUF 格式模型，具备轻量、可控、可自定义人格等优势，适合开发本地部署的聊天应用与 API 服务。其架构模组清晰，包含模型初始化、Prompt 管理、对话历史记忆、Web API 接口与 CLI 聊天模式，可快速扩展接入 Web UI、Swagger 文件或

2025-07-06 10:40:37 792

原创用 Go 打造本地 LLM 聊天机器人：整合 llm-go 与 go-llama.cpp

随着本地部署 LLM（如 LLaMA、Gemma、Mistral）的需求增加，许多开发者希望能以原生语言如 Go 建构轻量的推理系统。

2025-07-05 22:32:29 468

原创从 Prompt 管理到人格稳定：探索 Cursor AI 编辑器如何赋能 Prompt 工程与人格风格设计（下）

透过这次实践，我观察到未来 Chatbot 开发正逐步走向「系统化 prompt 调度」、「人格可控微调」与「工具链驱动开发」三大方向。这不仅是一次针对 Gemma 的模型调整实录，更是对新一代智能应用开发方式的一次反思与迭代。

2025-07-05 15:11:57 994

原创从 Prompt 管理到人格稳定：探索 Cursor AI 编辑器如何赋能 Prompt 工程与人格风格设计（上）

原始模型存在的问题：人格不稳定、上下文丢失、语气不一致，人格稳定性的技术挑战与解决方案

2025-07-05 00:31:08 975

原创从 Prompt 管理到人样稳定：我对 Gemma 聊天机器人的一次系统改造实录

本文系统梳理了我在改造 Gemma 聊天机器人过程中的实战经验，重点围绕 Prompt 管理与人设风格稳定展开。针对原始模型在多轮对话中出现的语气漂移、人设不统一等问题，我设计了结构化的 Prompt 管理模块，引入“人格守门人”机制，自定义 YAML 配置文件与上下文注入策略，从而实现聊天机器人在长文本交互中保持语气一致、逻辑连贯。

2025-07-04 21:30:34 1029

原创 CUDA-PyCPP-Kit 深度技术剖析：从 C++/CUDA 混合到 Python 高效调用

《CUDA-PyCPP-Kit》是一套高性能计算入门框架，专注于 Python 与 C++/CUDA 混合编程实践。该项目具备模块化架构，分为 CPU 与 GPU 两条路径，既能在无独立显卡环境下执行，也能部署于支持 CUDA 的 NVIDIA 平台。

2025-07-04 16:04:51 791

原创 CUDA-PyCPP-Kit 技术分析与实战指南

CUDA-PyCPP-Kit 为 Python 与 C++ 混合编程设计，包含基准测试、扩展模组编译脚本、典型用法示例与详细依赖说明，专案同时支持 CPU 与 GPU 两种环境。

2025-07-03 23:55:33 765

原创 CUDA 本地与 Mac 环境下如何实现 C++/python 开发 GPU 代码

CUDA是由 NVIDIA 推出的并行计算平台与编程模型，可大幅提升 GPU 的运算效能。从CUDA的基本原理出发，介绍其与 C++/Python 的结合方式，并特别针对 macOS 环境的兼容性进行分析。文中精选数个可在本地运行的开源项目，完整学习路线图。

2025-07-03 15:27:04 987

原创 Gemma Chatbot 前端架构深度解析：Gradio 与多主题 Web UI 的设计实践

Gemma Chatbot 是一套结合 C++ 高效推理核心与 Python 前端的本地化大语言模型聊天系统。本文聚焦其前端架构设计，深入解析了 Gradio 快速开发界面与多主题 Web UI 的协同实现。内容涵盖多语言切换、推理参数管理、流式响应处理、对话记录保存及 API 接口调用等实战技术，展示如何构建一套易于扩展、跨平台、可自定义的 LLM 本地前端系统。文中还提供了完整的事件绑定流程、HTML/CSS 组件示例、消息流与状态管理逻辑。

2025-07-02 23:37:22 974

原创 Gemma Chatbot 架构深度剖析：从 C++ 核心到多语言推理的工程实践

本文深入剖析 Gemma Chatbot 的本地部署架构，涵盖 C++ LLM 推理核心、Python 控制层与 Gradio 前端设计，并介绍量化模型、多线程加速、chat-template 模板引擎、多语言支持与参数管理等技术细节，帮助开发者理解高效本地化聊天机器人的工程实践方法。

2025-07-02 22:50:24 958

原创深入解析 Gemma Chatbot 背后的 C++ 技术核心，解析 gemma.cpp 架构

隨着大语言模型（LLM）逐漸普及，如何在本地端高效运行这类模型成为热门话题。Google Gemma 与 Meta Llama 等模型，因其开源与轻量特性，常被用于本地推理。而在这些应用背后，C++ 扮演了不可或缺的角色。本文将以本项目中的gemma.cpp（架构与类似）为例，介绍其 C++ 技术实现重点。

2025-07-01 13:48:20 993 1

原创轻量级 LLM 互动系统「Gemma Chatbot」

Gemma Chatbot 是基於 Google Gemma QAT 模型打造的本地輕量級聊天系統，使用 C++ 與 Python 開發，整合 Gradio 視覺介面。系統支援多語言切換、參數即時調控、聊天記錄保存與多模式配置，適用於 LLM 開發者、研究人員進行本地測試與部署，並可擴展至 RAG、插件與多模態應用。

2025-07-01 11:18:18 922