《AI大模型评测与智能测试》
本书聚焦AI时代的“质量”核心,以“AI赋能测试”(AI For Testing)与“AI模型评测”(Testing For AI)为双轮驱动。内容不仅深入剖析如何科学度量AI大模型的内在质量,还系统讲解如何利用AI赋能传统软件测试,帮助读者贯通从模型原理、评测到应用开发的全链路知识。
全书共分三篇7章。第一篇“原理基石”(第1-3章)从底层原理出发,深入剖析了神经网络、Transformer等大模型核心技术。第二篇“评测枢纽”(第4-5章)聚焦大模型的科学评测,讲解了OpenCompass等框架实战与核心能力评测案例。第三篇“实践蓝图”(第6-7章)着眼于测试领域AI应用,重点介绍了RAG、AI Agent开发及构建端到端智能测试系统的方法。
本书特色在于其独特的“评测”与“赋能”双重视角,并从技术哲学高度对AI底层原理进行深刻洞察,理论与实践紧密结合。本书不仅适合希望系统掌握大模型技术的测试工程师、算法工程师阅读,也适合对AI技术落地有深度兴趣的产品经理和项目经理参考。
第一篇:原理基石 —— 洞察AI大模型的智慧之源
第1章 神经网络核心技术
- 1.1 理解大模型必备的数学思想
- 1.1.1 深度学习必然用到的线性代数知识
- 1.1.2 深度学习必然用到的微积分知识
- 1.2 从神经元到深度学习
- 1.2.1 人脑神经元VS线性神经网络
- 1.2.2 GemmaScope理解AI模型的内部原理
- 1.2.3 大模型和人脑的区别
- 1.3 学习机制
- 1.3.1 图示+例子深入理解前向反向传播
第2章 大模型核心技术
- 2.1 Transformer架构:大模型的“引擎”
- 2.1.1 大模型认知能力生物学启发
- 2.1.2 主流模型谱系:从GPT到LLaMA与MoE
- 2.2 RLHF与思维链:让模型“更懂你”
- 2.2.1 强化学习核心思想与PPO算法
- 2.2.2 实战案例:用超级马里奥理解PPO
- 2.2.3 从PPO到RLHF:奖励模型与对齐训练
- 2.3 生成的奥秘:模型如何“思考”与“表达”
- 2.3.1 概率与采样:模型输出的随机性与确定性
- 2.3.2 解码策略:从Greedy Search到Beam Search
- 2.3.3 AI大模型推理过程和优化技术
- 2.3.4 思维链底层逻辑,换个Prompt性能飙升
- 2.4 多模态:让模型“看懂世界”
- 2.4.1 ViT与CLIP:模型理解图像的基石
- 2.4.2 技术解析:从图生文到文生图
- 2.4.3 开源实践:MiniGPT-4架构分析
第3章 大模型的“物质基础”:算力、数据与微调
- 3.1 成本与性能:算力、参数与显存的权衡
- 3.1.1 AI大模型参数量运算量显存如何分析计算
- 3.1.2 大模型量化相关知识
- 3.2 数据“燃料”:高质量数据的获取与处理
- 3.2.1 大模型精调数据的质量要求和数据格式
- 3.2.2 数据质量控制的关键步骤
- 3.3 微调的艺术:让通用模型更“懂”你
- 3.3.1 指令微调数据全面解析
- 3.3.2 大模型训练优化参数设置4个技术
- 3.4 Token:与大模型沟通的“货币”
- 3.4.1 Tokenization原理与分词器
- 3.4.2 token计算:原理与实用影响
第二篇:评测枢纽 —— 科学度量模型的能力边界
第4章 大模型评测体系与框架实战
- 4.1 评测框架王者:OpenCompass设计哲学
- 4.1.1 OpenCompass设计理念与动态注册机制
- 4.1.2 核心流程:从配置文件到评测执行
- 4.1.3 Hugging Face社区与模型加载
- 4.2 实战:用OpenCompass发起你的第一个评测任务
- 4.2.1 环境搭建与配置文件详解
- 4.2.2 结果解读与分析
- 4.3 多模态评测利器:VLMEvalKit源码解析
第5章 核心能力评测案例深度剖析
- 5.1 语言与代码能力评测
- 5.1.1 基础能力:文本相似度与匹配质量评估
- 5.1.2 对话能力:多轮对话一致性与流畅度评测
- 5.1.3 代码能力:HumanEval与代码生成评测实战
- 5.2 多模态能力评测
- 5.2.1 图像理解与描述(图生文)
- 5.2.2 图像编辑与扩展能力(文生图/图生图)
- 5.2.3 语音合成(TTS)与识别(ASR)能力评测
- 5.3 Agent与工具使用能力评测
- 5.3.1 RAG能力评测框架:Ragas实战
- 5.3.2 AgentBench:更复杂的智能体能力评估
- 5.4 模型输出的鲁棒性与一致性评测
- 5.4.1 压力测试:并发用户数与吞吐量分析
- 5.4.2 可靠性保障:如何确保模型输出格式的稳定性(如JSON)
- 5.4.3 Correlations氛围测试:文本或图像的相似度热图
- 5.5 手机AI功能端到端测评
- 5.5.1 手机自动操控业务测评
- 5.5.2 手机意图识别业务测评
第三篇:实践蓝图 —— 构建高价值AI智能应用
第6章 AI Agent核心技术与开发实战
- 6.1 RAG入门:从零到一构建检索增强生成系统
- 6.1.1 RAG基础架构六阶段详解
- 6.1.2 Embedding模型选型与优化策略
- 6.2 RAG进阶:提升检索与生成的质量
- 6.2.1 结构化知识追踪:KnowTrace原理与应用
- 6.2.2 高级检索策略
- 6.3 Agent的记忆与思考:上下文管理
- 6.3.1 上下文选择:工具、知识与记忆的调用
- 6.3.2 上下文压缩:裁剪与摘要技术
- 6.3.3 长短期记忆机制的最佳实践
- 6.3.4 多智能体协同工作流
- 6.4 高阶Agent开发策略与工程实践
- 6.5 前沿探索:在移动设备上构建操作智能体
第7章 构建端到端智能测试系统
- 7.1 AI赋能测试用例生成:从需求到Case
- 7.2 AI赋能UI自动化测试
- 7.2.1 Web自动化测试(Browser-Use)
- 7.2.2 绕过反爬虫检测:stealth.js原理解析
- 7.2.2 Android端到端自动化测试
- 7.3 AI赋能测试策略:代码变更影响分析与精准测试
- 7.4 AI赋能测试问答:构建轻量级ChatGPT聊天应用