LeonYi

[置顶] 【LLM】大模型落地-从理论到实践

摘要：简述按个人偏好和目标总结了学习目标和路径（可按需学习），后续将陆续整理出相应学习资料和资源。 🎯学习目标熟悉主流LLM（Llama, ChatGLM, Qwen）的技术架构和技术细节；有实际应用RAG、PEFT和SFT的项目经验较强的NLP基础，熟悉BERT、T5、Transformer和G 阅读全文

posted @ 2023-11-21 00:32 LeonYi 阅读(6813) 评论(0) 推荐(3)

2025年1月12日

Qwen2ForSequenceClassification文本分类实战和经验分享

摘要：本文主要使用Qwen2ForSequenceClassification实现文本分类任务。文章首发于我的知乎：https://zhuanlan.zhihu.com/p/17468021019 一、实验结果和结论这几个月，在大模型分类场景做了很多实验，攒了一点小小经验。 1、短文本 1）query 阅读全文

posted @ 2025-01-12 23:35 LeonYi 阅读(1525) 评论(0) 推荐(0)

2024年9月9日

【LLM训练系列】从零开始训练大模型之Phi2-mini-Chinese项目解读

摘要：一、前言本文主要是在复现和实践Phi2-mini-Chinese后，简要分析下Phi2-mini-Chinese这个项目，做一个学习实战总结。原文发布于知乎：https://zhuanlan.zhihu.com/p/718307193，转载请注明出数。 Phi2-mini-Chinese简介 P 阅读全文

posted @ 2024-09-09 23:52 LeonYi 阅读(1237) 评论(0) 推荐(1)

2024年8月25日

【LLM训练系列】NanoGPT源码详解和中文GPT训练实践

摘要：

本文是【训练LLM系列】的第一篇，主要重点介绍NanoGPT代码以及中文、英文预训练实践。最新版参见我的知乎：https://zhuanlan.zhihu.com/p/716442447 除跑通原始NanoGPT代码之外，分别使用了《红楼梦》、四大名著和几十本热门网络小说，进行了字符级、自行训练to 阅读全文

posted @ 2024-08-25 23:28 LeonYi 阅读(1579) 评论(0) 推荐(0)

2024年6月11日

大模型高效微调-LoRA原理详解和训练过程深入分析

摘要：

博客首发于我的知乎，详见：https://zhuanlan.zhihu.com/p/702629428 一、LoRA原理 LoRA(Low-Rank Adaptation of LLMs)，即LLMs的低秩适应，是参数高效微调最常用的方法。 LoRA的本质就是用更少的训练参数来近似LLM全参数微调所阅读全文

posted @ 2024-06-11 21:50 LeonYi 阅读(21503) 评论(2) 推荐(5)

2024年5月6日

大模型高效微调详解-从Adpter、PrefixTuning到LoRA

摘要：

最新版本，详见我的知乎文章：https://zhuanlan.zhihu.com/p/696057719 一、背景目前NLP主流范式是在大量通用数据上进行预训练语言模型训练，然后再针对特定下游任务进行微调，达到领域适应（迁移学习）的目的。指令微调是预训练语言模型微调的主流范式其目的是尽量让下游阅读全文

posted @ 2024-05-06 23:40 LeonYi 阅读(4601) 评论(0) 推荐(2)

2024年3月13日

【LLM实战】基于QLoRA微调微软Phi-2的对话摘要任务

摘要：本文将在DialogSum数据集上使用2张T4卡对2.7B的microsoft/phi2进行LORA微调。博客翻译自Kaggle项目 fine-tuning-llm-for-dialogue-summarization https://www.kaggle.com/code/aisuko/fine 阅读全文

posted @ 2024-03-13 22:32 LeonYi 阅读(952) 评论(0) 推荐(0)

【预训练语言模型】使用Transformers库进行BERT预训练

摘要：基于 HuggingFace的Transformer库，在Colab或Kaggle进行预训练。鉴于算力限制，选用了较小的英文数据集wikitext-2 目的：跑通Mask语言模型的预训练流程一、准备 1.1 安装依赖 !pip3 install --upgrade pip !pip instal 阅读全文

posted @ 2024-03-13 22:25 LeonYi 阅读(1020) 评论(0) 推荐(0)

【预训练语言模型】使用Transformers库进行GPT2预训练

摘要：基于 HuggingFace的Transformer库，在Colab或Kaggle进行预训练。本教程提供：英文数据集wikitext-2和代码数据集的预训练。注：可以自行上传数据集进行训练目的：跑通自回归语言模型的预训练流程一、准备 1.1 安装依赖 !pip install -U data 阅读全文

posted @ 2024-03-13 22:21 LeonYi 阅读(985) 评论(0) 推荐(1)

2024年1月27日

【深度学习】批量归一化 BatchNormalization

摘要：一、背景机器学习的本质是对物理世界进行建模，做的就是拟合数据分布。但是在模型训练过程中，神经网络参数不断更新，导数中间层的数据分布频繁地变化（内部协变量偏移），不利于网络参数优化。具体表现为：每层的参数需不断适应新的输入数据分布，降低学习速度，增大学习的难度（层数多）输入可能趋向于变大或者变阅读全文

posted @ 2024-01-27 22:31 LeonYi 阅读(1184) 评论(0) 推荐(1)

2023年12月26日

【大语言模型基础】图解GPT原理-60行numpy实现GPT

摘要：写在前面本文主要是对博客 https://jaykmody.com/blog/gpt-from-scratch/ 的精简整理，并加入了自己的理解。中文翻译：https://jiqihumanr.github.io/2023/04/13/gpt-from-scratch/#circle=on 项目阅读全文

posted @ 2023-12-26 00:49 LeonYi 阅读(3432) 评论(2) 推荐(3)

LeonYi

仰望星空，脚踏实地

公告