Datawhale AI夏令营模型蒸馏学习 task2笔记

最新推荐文章于 2025-08-15 22:59:14 发布

Aurora-silas

最新推荐文章于 2025-08-15 22:59:14 发布

阅读量995

点赞数 21

CC 4.0 BY-SA版权

分类专栏：模型蒸馏文章标签：人工智能学习笔记

本文链接：https://blog.csdn.net/2301_79411237/article/details/149548572

模型蒸馏专栏收录该内容

5 篇文章

订阅专栏

Task2让我在星辰MaaS平台上完成了知识蒸馏的全过程，训练出一个轻量级学生模型，学习DeepSeek-R1的数学推理能力。以下是我亲身实践的详细步骤，包括每个步骤的原理、小贴士和例子，分享给你们，欢迎留言交流！

一、我的实践过程

步骤1：数据准备

原理

数据是模型训练的基础，高质量的输入数据能确保推理链（Chain-of-Thought, CoT）的准确性和逻辑性。清洗和补充数据能减少噪声，提升模型学习效果。

实践

我收集了官方训练集，仔细清洗数据，确保每道题的推理链逻辑清晰。比如，我遇到“男生比女生多60%”的题目，检查输出“女生比男生少37.5%”的计算无误，修正了格式不一致的地方。为丰富素材，我从公开资源补充了一些题，如“计算定积分∫(0 to 1) x^2 dx”，输出为“∫x^2 dx = x^3/3，[0,1]上为1/3-0=1/3”。
prompt修改举例：

import json

# 读取原始文件
with open('数学赛题测试集.jsonl', 'r', encoding='utf-8') as infile:
    lines = infile.readlines()

# 处理每一行并格式化
output_data = []
for line in lines:
    entry = json.loads(line.strip())
    # 提取每个输入并按照新格式包装
    formatted_entry = {
        "input": f"请你一步一步思考下面的数学问题并生成答案，问题如下：{{{{{entry['input']}}}}}"
    }
    output_data.append(formatted_entry)

# 将处理后的数据写入新的文件
with open('formatted_数学赛题测试集.jsonl', 'w', encoding='utf-8') as outfile:
    for item in output_data:
        json.dump(item, outfile, ensure_ascii=False)
        outfile.write("\n")

print("文件处理完成，已保存为 'formatted_数学赛题测试集.jsonl'")

得到如下图：
在这里插入图片描述

小贴士

检查一致性：用脚本或手动逐行验证output是否与input匹配。
多样性：补充题时覆盖微积分、线性代数和机器学习概念。
例子：若题为“求P(X>1/2)”，确保输出包含概率计算步骤而非仅给答案。

步骤2：教师模型推理链生成

原理

教师模型（DeepSeek-R1）通过CoT生成详细推理过程，微调集是学生模型学习的“金矿”。Prompt设计直接影响输出质量，好的Prompt能引导模型生成结构化、逻辑清晰的推理。

实践

我登录星辰MaaS平台，配置DeepSeek-R1后上传测试集。我设计了Prompt，如“请一步步详细推理以下数学问题：{{题目}}”，针对机器学习题用“请用简洁语言解释：{{题目}}”。运行批量推理后，我下载了CoT数据，比如“P(X>1/2)”的输出包含“f(x)=2x，积分从1/2到1得1/8”。但“拉格朗日乘数法”题的输出不够完整，我记录下来准备优化。

小贴士

Prompt迭代：先试“一步步解”，若效果差加“用初等方法”。
检查输出：抽样10%数据，确认CoT无跳跃。
例子：为“计算矩阵A=[[1,2],[3,4]]的行列式”，期望输出“1*4-2*3=-2”而非仅“-2”。

步骤3：学生模型蒸馏训练

原理

学生模型（deepseek_r1_qwen_7b）通过LoRA（Low-Rank Adaptation）在教师数据上精调，保留大模型能力的同时降低资源需求。参数调整平衡训练效果和过拟合风险，LoRA通过低秩更新减少计算量。

LoRA精调相关知识与注意事项

LoRA（Low-Rank Adaptation）是一种高效的微调（fine-tuning）方法，用于在不大幅修改预训练模型权重的情况下，快速适配大模型到特定任务。以下是LoRA精调的相关知识和注意事项，尽量简洁清晰：

一、LoRA的核心知识

基本原理：
- LoRA通过在预训练模型的权重矩阵上引入低秩分解（low-rank decomposition），仅更新一小组附加参数（称为LoRA适配器），而不直接修改原始模型权重。
- 假设原始权重矩阵为 ( W )，LoRA引入更新 (\Delta W = A \cdot B)，其中 ( A ) 和 ( B ) 是低秩矩阵（rank ( r ) 远小于原始矩阵维度）。
- 最终权重为 ( W’ = W + \Delta W )，仅训练 ( A ) 和 ( B )，参数量大幅减少。
优势：
- 高效：参数量少（通常只占原始模型的0.1%-1%），节省计算资源和存储空间。
- 模块化：LoRA适配器可快速加载/卸载，适合多任务场景。
- 保持泛化：原始模型权重不变，降低过拟合风险，保留预训练知识。
- 兼容性：适用于Transformer等模型，广泛用于NLP、CV等领域。
应用场景：
- 特定领域任务微调（如医疗、金融领域的语言模型）。
- 个性化模型定制（如对话风格调整）。
- 资源受限环境（如边缘设备）。
实现工具：
- 常见框架：Hugging Face（peft库）、PyTorch、TensorFlow。
- 开源实现：如LoRA的原始论文代码、Hugging Face Transformers。

二、LoRA精调的注意事项

超参数选择：
- 秩（Rank, ( r )）：控制LoRA矩阵的容量。通常 ( r=4, 8, 16 ) 是一个折中选择。过高会导致过拟合，过低可能无法捕捉任务特性。
- 缩放因子（Scaling Factor, ( \alpha )）：控制LoRA更新的幅度，常用值为 ( \alpha=2r )。需根据任务调整。
- 目标模块：选择哪些层应用LoRA（如Transformer的query, key, value, feed-forward层）。通常只对部分层（如q, v）应用LoRA即可。
数据集准备：
- 数据质量：确保训练数据与目标任务高度相关，数据量无需过大（几百到几千条即可）。
- 数据分布：数据需代表目标任务的多样性，避免偏差。
- 预处理：与预训练模型的输入格式保持一致（如分词、padding）。
训练设置：
- 学习率：通常比全参数微调小（如1e-4到1e-5）。建议使用学习率调度（如余弦衰减）。
- 优化器：AdamW是常见选择，权重衰减需适度设置（0.01-0.1）。
- 批量大小（Batch Size）：根据硬件资源选择，较小的batch size（如4-16）通常够用。
- 训练轮数：LoRA收敛较快，通常3-10个epoch即可，需监控验证集表现以防过拟合。
模型保存与加载：
- 仅保存LoRA适配器权重（通常几MB），而非整个模型（几十GB）。
- 加载时需确保预训练模型与LoRA适配器兼容（模型架构、分词器等一致）。
- 使用Hugging Face peft库可简化保存/加载流程。
性能优化：
- 量化：结合8-bit或4-bit量化（如bitsandbytes）进一步降低显存需求。
- 并行训练：若硬件支持，可用多GPU加速，但LoRA本身对显存需求较低。
- 推理优化：推理时可将LoRA权重与原始权重合并，减少计算开销。
常见问题与解决方案：
- 性能不佳：检查数据质量、秩值、目标模块是否合适，尝试增大 ( r ) 或调整 ( \alpha )。
- 过拟合：减少训练轮数、降低学习率或增加Dropout。
- 不兼容问题：确保LoRA适配器与预训练模型版本一致，检查分词器和配置。
局限性：
- LoRA在大幅改变模型行为（如跨领域任务）时可能效果有限，需评估是否适合全参数微调。
- 对某些复杂任务，LoRA可能需要更高秩值，增加计算成本。
与其他方法对比：
- 与全参数微调相比：LoRA更高效，但可能牺牲部分性能。
- 与Prompt Tuning相比：LoRA更灵活，性能通常优于Prompt Tuning。
- 与Adapter相比：LoRA参数量更少，训练更快，但Adapter可能在某些任务上更稳定。

三、实践建议

实验设计：
- 从小秩值（如 ( r=4 )）开始实验，逐步调整。
- 使用验证集监控性能，防止过拟合。
- 记录不同超参数组合的表现，优化选择。
工具推荐：
- Hugging Face peft库：支持LoRA、QLoRA，文档完善。
- 参考开源项目：如Alpaca-LoRA、LLaMA-Factory。
调试技巧：
- 检查训练损失曲线，确保收敛。
- 验证LoRA适配器是否正确加载（可打印权重确认）。
- 若性能不佳，尝试冻结更多层或调整目标模块。
社区资源：
- 参考LoRA论文（Hu et al., 2021）及Hugging Face教程。
- 关注X平台上的AI社区动态，获取最新优化技巧。

四、总结

LoRA是一种高效、灵活的微调方法，适合资源受限场景和快速适配任务。通过合理选择超参数、准备高质量数据、优化训练流程，可显著提升模型在特定任务上的表现。需注意任务复杂度、数据质量和模型兼容性，避免盲目使用高秩值或忽视验证集监控。

小贴士

早停：若验证损失3轮不降，停止训练。
小样测试：先用10条数据调参，确认效果。
例子：若损失停滞，减学习率至0.0001再试。

步骤4：模型评估与调优

原理

评估检查模型在AS（答案准确率）、CQS（CoT质量）、ES（效率）、MLS（轻量化）上的表现，调优针对弱项优化模型。

小贴士

分项检查：AS低查CoT数据，CQS差优化Prompt。
效率优化：用token计数工具削减冗长推理。
例子：若“backpropagation”解释太长，删减至“通过链式法则更新权重”。

步骤5：模型发布与提交

原理

部署生成resourceId，提交后系统按加权评分（AS 40% + CQS 30% + ES 20% + MLS 10%）排名。

小贴士

稳定性测试：提交前跑10题，确认无崩溃。
每日策略：第一次提交后调整，第二次冲高分。
例子：若AS低，检查CoT数据是否遗漏步骤。

二、思考问题

什么是微调？微调不当可能导致“过拟合”？

微调（fine-tuning）是机器学习中一种常见的模型优化技术，指在预训练模型的基础上，使用特定任务或数据集对其参数进行小范围调整，以提高模型在特定任务上的性能。预训练模型通常已经在大型通用数据集上训练过，具备广泛的知识或特征提取能力。微调通过在目标任务的小规模数据集上进一步训练，使模型更好地适应特定场景，同时保留预训练学到的通用知识。

例如，在自然语言处理（NLP）中，可以在一个大型语料库上预训练一个语言模型（如BERT），然后在特定任务（如情感分析）的小数据集上微调，使其更适合该任务。

微调不当可能导致“过拟合”？

是的，微调不当可能导致过拟合（overfitting）。过拟合是指模型在微调数据集上学习得过于“专精”，过度拟合训练数据的细节和噪声，导致在未见过的数据（测试集或现实场景）上表现较差。微调不当引发过拟合的原因包括：

微调数据量不足：如果微调数据集过小，模型可能记住训练样本的特定模式，而无法泛化到新数据。
微调过度：训练轮数过多或学习率过高可能导致模型过于贴合训练数据，丢失泛化能力。
预训练与微调任务差异过大：如果预训练模型的知识与微调任务差异太大，微调可能导致模型“遗忘”预训练的通用知识（灾难性遗忘），或在微调数据上过拟合。
正则化不足：缺乏适当的正则化手段（如Dropout、权重衰减）可能使模型更容易过拟合。
避免过拟合的措施：

使用足够的数据：确保微调数据集具有代表性和多样性。
适当的训练轮数：通过早停（early stopping）监控验证集性能，防止训练过度。
调整学习率：使用较小的学习率进行微调，避免大幅改变预训练参数。
正则化技术：应用Dropout、L2正则化等技术减少过拟合风险。
冻结部分层：在微调时冻结预训练模型的部分层（通常是较低层），只更新靠近输出层的参数，保留通用特征。
总结来说，微调是提升模型特定任务性能的有效方法，但需谨慎控制训练过程，避免过拟合，以确保模型在实际应用中的泛化能力。

什么是过拟合？

过拟合（overfitting）是机器学习中一种常见问题，指模型在训练数据上表现得非常好，过于贴合训练数据的细节和噪声，但对未见过的数据（如测试集或现实场景数据）泛化能力较差。换句话说，模型“记住”了训练数据的特定模式，而不是学习到通用的规律，导致在新数据上的预测性能下降。

过拟合的表现：

训练集上的误差（损失）很低，但验证集或测试集上的误差较高。
模型对训练数据中的噪声、异常点或特定样本过于敏感，无法处理新数据的多样性。
过拟合的原因：

模型复杂度过高：模型（如神经网络）参数过多，过于复杂，能够拟合训练数据中的所有细节，包括噪声。
训练数据不足：数据集规模小或缺乏多样性，模型无法学到泛化规律。
训练时间过长：训练轮数过多，模型逐渐“记住”训练数据，而不是学习通用特征。
缺乏正则化：未使用正则化技术（如Dropout、L2正则化）来约束模型的复杂度。
数据噪声或偏差：训练数据中存在噪声或不平衡，模型可能学习到这些错误的模式。
过拟合的示例：
假设你用一个复杂神经网络训练一个分类器来区分猫和狗。如果训练数据只有几张猫狗图片，且训练轮数过多，模型可能记住每张图片的具体像素分布（包括背景、噪声等），而不是学习猫狗的通用特征（如耳朵形状、毛色）。结果是，模型在训练集上准确率接近100%，但在新图片上表现很差。

如何检测过拟合：

比较训练集和验证集的性能：如果训练集准确率高而验证集准确率低，通常表明过拟合。
绘制学习曲线：训练损失持续下降，但验证损失在某点后开始上升。
如何防止过拟合：

增加数据量：收集更多样、更大规模的训练数据。
数据增强：通过旋转、翻转、裁剪等技术人为增加数据多样性。
正则化：使用L1/L2正则化、Dropout等技术限制模型复杂度。
早停（Early Stopping）：监控验证集性能，当性能不再提升时停止训练。
简化模型：减少模型参数或层数，避免过于复杂的结构。
交叉验证：使用k折交叉验证评估模型的泛化能力。
总之，过拟合是模型学习能力过强但泛化能力不足的结果。通过合理的模型设计、数据处理和训练策略，可以有效减少过拟合，提高模型在实际场景中的表现。