会员
周边
众包
新闻
博问
闪存
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
LeonYi
首页
归档
新随笔
博客管理
LeonYi
仰望星空,脚踏实地
博客园
首页
新随笔
联系
订阅
管理
[置顶]
【LLM】大模型落地-从理论到实践
摘要: 简述 按个人偏好和目标总结了学习目标和路径(可按需学习),后续将陆续整理出相应学习资料和资源。 🎯学习目标 熟悉主流LLM(Llama, ChatGLM, Qwen)的技术架构和技术细节;有实际应用RAG、PEFT和SFT的项目经验 较强的NLP基础,熟悉BERT、T5、Transformer和G
阅读全文
posted @ 2023-11-21 00:32 LeonYi
阅读(6813)
评论(0)
推荐(3)
2025年1月12日
Qwen2ForSequenceClassification文本分类实战和经验分享
摘要: 本文主要使用Qwen2ForSequenceClassification实现文本分类任务。 文章首发于我的知乎:https://zhuanlan.zhihu.com/p/17468021019 一、实验结果和结论 这几个月,在大模型分类场景做了很多实验,攒了一点小小经验。 1、短文本 1)query
阅读全文
posted @ 2025-01-12 23:35 LeonYi
阅读(1525)
评论(0)
推荐(0)
2024年9月9日
【LLM训练系列】从零开始训练大模型之Phi2-mini-Chinese项目解读
摘要: 一、前言 本文主要是在复现和实践Phi2-mini-Chinese后,简要分析下Phi2-mini-Chinese这个项目,做一个学习实战总结。 原文发布于知乎:https://zhuanlan.zhihu.com/p/718307193,转载请注明出数。 Phi2-mini-Chinese简介 P
阅读全文
posted @ 2024-09-09 23:52 LeonYi
阅读(1237)
评论(0)
推荐(1)
2024年8月25日
【LLM训练系列】NanoGPT源码详解和中文GPT训练实践
摘要:
本文是【训练LLM系列】的第一篇,主要重点介绍NanoGPT代码以及中文、英文预训练实践。最新版参见我的知乎:https://zhuanlan.zhihu.com/p/716442447 除跑通原始NanoGPT代码之外,分别使用了《红楼梦》、四大名著和几十本热门网络小说,进行了字符级、自行训练to
阅读全文
posted @ 2024-08-25 23:28 LeonYi
阅读(1579)
评论(0)
推荐(0)
2024年6月11日
大模型高效微调-LoRA原理详解和训练过程深入分析
摘要:
博客首发于我的知乎,详见:https://zhuanlan.zhihu.com/p/702629428 一、LoRA原理 LoRA(Low-Rank Adaptation of LLMs),即LLMs的低秩适应,是参数高效微调最常用的方法。 LoRA的本质就是用更少的训练参数来近似LLM全参数微调所
阅读全文
posted @ 2024-06-11 21:50 LeonYi
阅读(21503)
评论(2)
推荐(5)
2024年5月6日
大模型高效微调详解-从Adpter、PrefixTuning到LoRA
摘要:
最新版本,详见我的知乎文章:https://zhuanlan.zhihu.com/p/696057719 一、背景 目前NLP主流范式是在大量通用数据上进行预训练语言模型训练,然后再针对特定下游任务进行微调,达到领域适应(迁移学习)的目的。 指令微调是预训练语言模型微调的主流范式 其目的是尽量让下游
阅读全文
posted @ 2024-05-06 23:40 LeonYi
阅读(4601)
评论(0)
推荐(2)
2024年3月13日
【LLM实战】 基于QLoRA微调微软Phi-2的对话摘要任务
摘要: 本文将在DialogSum数据集上使用2张T4卡对2.7B的microsoft/phi2进行LORA微调。 博客翻译自Kaggle项目 fine-tuning-llm-for-dialogue-summarization https://www.kaggle.com/code/aisuko/fine
阅读全文
posted @ 2024-03-13 22:32 LeonYi
阅读(952)
评论(0)
推荐(0)
【预训练语言模型】 使用Transformers库进行BERT预训练
摘要: 基于 HuggingFace的Transformer库,在Colab或Kaggle进行预训练。 鉴于算力限制,选用了较小的英文数据集wikitext-2 目的:跑通Mask语言模型的预训练流程 一、准备 1.1 安装依赖 !pip3 install --upgrade pip !pip instal
阅读全文
posted @ 2024-03-13 22:25 LeonYi
阅读(1020)
评论(0)
推荐(0)
【预训练语言模型】使用Transformers库进行GPT2预训练
摘要: 基于 HuggingFace的Transformer库,在Colab或Kaggle进行预训练。 本教程提供:英文数据集wikitext-2和代码数据集的预训练。 注:可以自行上传数据集进行训练 目的:跑通自回归语言模型的预训练流程 一、准备 1.1 安装依赖 !pip install -U data
阅读全文
posted @ 2024-03-13 22:21 LeonYi
阅读(985)
评论(0)
推荐(1)
2024年1月27日
【深度学习】批量归一化 BatchNormalization
摘要: 一、背景 机器学习的本质是对物理世界进行建模,做的就是拟合数据分布。 但是在模型训练过程中,神经网络参数不断更新,导数中间层的数据分布频繁地变化(内部协变量偏移),不利于网络参数优化。具体表现为: 每层的参数需不断适应新的输入数据分布,降低学习速度,增大学习的难度(层数多) 输入可能趋向于变大或者变
阅读全文
posted @ 2024-01-27 22:31 LeonYi
阅读(1184)
评论(0)
推荐(1)
2023年12月26日
【大语言模型基础】图解GPT原理-60行numpy实现GPT
摘要: 写在前面 本文主要是对博客 https://jaykmody.com/blog/gpt-from-scratch/ 的精简整理,并加入了自己的理解。 中文翻译:https://jiqihumanr.github.io/2023/04/13/gpt-from-scratch/#circle=on 项目
阅读全文
posted @ 2023-12-26 00:49 LeonYi
阅读(3432)
评论(2)
推荐(3)
下一页
公告