十里清风-CSDN博客

原创 RLHF及其变体（PPO、DPO、RLOO、GRPO等）：进展和工程实践视野

本文深入探讨了基于人类反馈的强化学习（RLHF）及其变体的技术进展、工程实践和实验分析。文章从RLHF的基础出发，逐步介绍了几种改进算法（如DPO、Iterative DPO、RLOO、GRPO等），并对比了它们的优缺点、适用场景和实验效果。

2025-06-11 00:19:52 1063

原创不同类型的语义相似度损失函数（SentenceTransformerLoss）

本文介绍了面向不同输入类型的句子嵌入损失函数。

2025-06-05 17:28:16 833

原创组相对策略优化（GRPO）：原理及源码解析

DeepSeekMath论文提出了GRPO算法，用于改进语言模型在数学推理任务中的强化学习训练方法。相比于传统PPO算法需要价值模型计算优势值，GRPO通过采样多个响应后计算组内平均奖励作为baseline，从而避免了价值模型的使用。该方法引入了KL散度约束来稳定训练，并提出了结果监督和过程监督两种奖励计算方式。本文主要剖析了GRPO的原理，并解析了trl源码的具体实现流程。

2025-06-04 00:05:46 1136

原创近端策略优化（PPO）：论文、原理及源码解析

本文介绍了近端策略优化（PPO）算法的论文内容、算法原理和代码解析。

2025-05-21 17:01:05 1006

原创 LLM显存分析与高效微调方法原理：P-Tuning、LoRA、QLoRA

混合精度、训练显存分析、激活显存分析，高效微调方法介绍，如P-Tuning、LoRA等。

2025-05-12 15:29:30 635

原创 LLM量化方法：ZeroQuant、LLM.int8()、SmoothQuant、GPTQ、AWQ、QLoRA

介绍了主流的LLM量化方法，包括ZeroQuant、LLM.int8()、SmoothQuant、GPTQ和AWQ。

2025-05-09 21:43:47 1572 4

原创直接偏好优化（Direct Preference Optimization，DPO）：论文与源码解析

在大型数据集上训练的大规模无监督语言模型（LMs）获得了惊人能力。然而，这些模型是在人类生成的具有多样化的目标、优先级和技能的数据集上训练的。然而，这些模型是基于具有各种目标、优先级和技能集的人类生成的数据进行训练的。其中一些目标和技能集我们可能并不想模仿；例如，我们想要我们的AI编程助手理解常见的编程错误并纠正，但在生成代码时，我们希望我们的模型倾向于它训练数据中存在的（可能很罕见）高质量编程能力。

2025-04-24 22:29:55 1163

原创均方根层标准化（RMSNorm: Root Mean Square Layer Normalization）

RMSNorm与LayerNorm

2025-02-07 18:05:22 1139

原创 Visual预训练模型：BEiT、BEiT v2

基于的双向编码、自监督视觉表征模型，使用任务进行预训练。图1为预训练过程。，利用以自编码的方式训练，以将图片切分为离散的visual tokens。，图像有image patches和visual tokens两种表示，首先将图片大小缩放至224x224，以网格法分割成14x14的patches，每个patch的大小为16x16,。随机掩盖部分image patches，即图中灰色的patches替换为[M]

2023-03-18 15:27:42 2086

原创 NLP预训练模型：RoBERTa、ELECTRA、DeBERTa和DeBERTaV3

当判别器和生成器大小相同时，所有transformer参数均可以共享，但生成器参数量较少时训练更小效率，因此，仅共享token和position两种embedding参数。若生成器和判别器大小一致，则单步迭代所需算力约是MLM模型的2倍，通过实验发现，当生成器大小为判别器大小的1/4至1/2时，判别器能够获得最优性能，可能是由于。在预训练与下游微调之间不统一的问题，此外，判别器学习输入中的每一个token，比MLM任务仅学习部分掩盖token更有效率。，而且生成器建模数据分布，而判别器需要。

2023-03-04 17:27:34 3377 1

原创 Layout系列模型（LayoutLM,LayoutLMv2,LayoutXLM）

Layout LM联合建模文档的layout信息和text信息，预训练文档理解模型。模型架构使用BERT作为backbone，加入2-D绝对位置信息，图像信息，分别捕获token在文档中的相对位置以及字体、文字方向、颜色等视觉信息。 2-D Position Embedding. 将文档页面视为坐标系统（左上为原点），使用2张embedding table构造4种位置嵌入，横纵轴各使用1张嵌入表； Image Embedding. 将文档页面图像分割成小图片序列，基于Faster R-CNN建

2022-05-29 17:57:04 8534

原创 Python使用笔记（继承、超类等）

超类方法super(type[, object-or-type])：返回一个代理对象，并委派调用方法给父类或者type的兄弟类。__mro__属性列出getattr()和super()的方法解析搜索顺序。若忽略第二个参数，则返回一个未绑定的super对象若第二个参数是一个object，必须保证isinstance(obj, type)为真若第二个参数是一个type，必须保证issubclass(type2, type)为真，多用于classmethodsobject指实例化的对象，如self

2021-01-09 21:37:05 443

翻译 FLAT：使用Transformer引入词汇信息增强中文NER（Chinese NER Using Flat-Lattice Transformer）

文章目录1 引言2 背景3 模型3.1 转换格子为扁平结构3.2 范围的相对位置编码4 实验4.1 实验设置4.2 整体性能4.3 全连接结构的优势4.4 FLAT效率4.5 FLAT的提升4.6 BERT兼容性【论文链接】：FLAT: Chinese NER Using Flat-Lattice Transformer近年来，已证明引入词汇信息的字词格子结构能够有效提升中文NER任务，然而，格子结构复杂、多变，多数现有的基于格子结构的模型难以利用多GPU并行计算，并且推理速度较慢。本文提出FLAT

2021-01-06 02:20:57 2756

原创图卷积神经网络（GCN）论文笔记与Geometric源码解释

1 引言主要解决问题图半监督分类问题（如引用网络）。一般解决方案及缺点使用确定形式的基于图的正则化平滑标签信息，如在损失函数中使用一个拉普拉斯项：L=L0+λLreg , with Lreg =∑i,jAij∥f(Xi)−f(Xj)∥2=f(X)⊤Δf(X),(1)\mathcal{L}=\mathcal{L}_{0}+\lambda \mathcal{L}_{\text {reg }}, \quad \text { with } \quad \mathc

2020-12-14 15:18:58 2296

翻译 GNNs综述：图神经网络的综合调查（A Comprehensive Survey on Graph Neural Networks）

文章目录I. 引言II. 背景和定义A. 背景最近一些年，深度学习彻底改变了许多机器学习任务，从图像分类、视频处理到语音识别、自然语音理解，这些任务中的数据通常可在欧式空间中表示。然而，有越来越多应用的数据是从非欧式空间中生成，并以物体之间具有复杂关系和依赖的图表示。图数据的复杂性给现有机器学习算法施加了重大挑战。最近，涌现很多扩展机器学习方法处理图数据的研究。在这份调查中，我们提供了图神经网络（graph neural networks，GNNs）在数据挖掘和机器学习领域的综述。我们提出一种分类，将

2020-12-11 02:51:51 2415

原创 TableBank: 表格检测和识别基准数据集（A Benchmark Dataset for Table Detection and Recognition）

TableBank表格检测表格识别

2020-12-07 18:29:30 7613

原创 AxCell: 从机器学习论文中自动抽取结果（Automatic Extraction of Results from Machine Learning Papers）

随着论文数量爆炸式增长，追踪机器学习领域的进展变得日益繁重。本文提出一种从论文中抽取研究成果的自动机器学习流水线 - AXCELL。AXCELL使用一些新的组件，其中包括表格分割子任务：学习相关结构知识以帮助抽取。与现有方法相比，我们的方法显著地提高了“结果抽取”的SOTA。我们还发布了一个结构化、标注的数据集，用于“结果抽取”的训练，以及一个用于评估该任务模型性能的验证集。最后，我们展示了我们的方法在产品中以半自动抽取研究成果的可行性，结果表明我们的改进使得该任务第一次可行。代码可从GitHub中获取

2020-12-06 02:15:42 2441

原创 Facebook ConvS2S：Convolutional Sequence to Sequence Learning

文章目录介绍RNN Seq2Seq卷积架构位置嵌入（Position Embeddings）卷积块结构（Convolutional Block Structure）多步注意力（Multi-step Attention）标注化策略（Normalization Strategy）[Reference]1. Convolutional Sequence to Sequence Learning介绍卷积很少用于序列建模。卷积建模固定大小/窗口的上下文表示，而深层卷积网络可以很容易建模较长的有效上下文表示。

2020-11-21 21:25:58 1040

原创 PGN: 指针生成网络（Get To The Point: Summarization with Pointer-Generator Networks）

seq2seq模型可用于文本摘要（并非简单地选择、重排原始文本的段落），然后这些模型有两个缺点：不易关注真实细节，以及倾向于生成重复文本。本文提出一种新颖的架构：使用两种方式增强标准的seq2seq注意力模型。第一，使用混合指针生成网络，利用指针从原文精确地复制单词，同时保留生成器产生新单词的能力。第二，使用覆盖机制跟踪哪些单词已经被摘取，避免生成重复文本。引言文本摘要任务旨在输出仅包含原文主要信息的压缩文本，大致具有两种方法：抽取式和摘要式。抽取式方法直接抽取段落原文，而摘要式方法可能生成一些原文中

2020-10-20 20:55:46 3816

原创 Xavier Glorot参数初始化: 理解训练Deep DNN的难点

许多实验表明，深层网络比浅层网络更有优势，但在2006年以前，深层网络难以训练，后来一些算法通过改进初始化方法或训练机制，成功深层网络。这里，我们的目标是更好理解，为何使用标准随机梯度下降难以优化参数随机初始化的深层网络？为何最近的一些算法能够训练深层网络？我们发现，由于sigmoid激活函数均值影响，它会将顶层隐藏层推向饱和（非线性单元饱和较少时往往更有益），因此不适合作为参数随机初始化网络的激活函数。惊奇的是，有时饱和单元能够在训练时自行缓慢地离开饱和区，并解释有时训练神经网络会看到训练停滞的原因。

2020-09-06 18:06:12 7828

原创 ALBERT: 自监督语言表示的轻量级BERT

文章目录引言词向量因式分解（Factorized embedding parameterization）跨层参数共享（Cross-layer parameter sharing）内部句子一致性损失（Inter-sentence coherence loss）【Reference】引言预训练模型使得一些缺乏训练数据的下游任务表现良好，大力出奇迹，大型网络是获得SOTA性能的关键，但随着模型大小的增加，内存占用和训练时间都会增加。那么是否有比大型模型更简单、性能更好的模型？ALBERT使用两种缩减参数

2020-08-22 17:14:29 1730

原创 NTT Masque: 多风格生成式阅读理解（Multi-Style Generative Reading Comprehension）

RC研究领域多使用范围抽取式方法，生成式方法面临开放领域训练数据匮乏。本文提出多风格问答阅读理解摘要模型，从问句和多个段落生成指定风格的summary作为答案。多源摘要：使用指针生成器机制从问句、多段落中生成多样化风格的答案，并扩展至Transformer，允许生不成器词表，或从问句、段落原文中复制信息生成答案；多风格学习：控制答案输出样式，满足RC所有形式输出，引入风格化的人工token扩展指针生成器为条件解码器，给定风格下，每一步解码控制三个分布占解码输出的权重；问题形式化给定含JJJ个

2020-08-21 16:39:10 1430

原创微软R-NET: 端到端、抽取式机器阅读理解问答模型

文章目录R-NET结构问句和段落编码Reference:1. R-NET: Machine Reading Comprehension with Self-Matching NetworksR-NET是端到端阅读理解QA神经网络模型，目的是从段落中抽取问句对应的答案区间。使用门控注意力RNNs，编码具有问句感知的段落词向量表示，通过自匹配注意力改善段落词向量表示。R-NET结构R-Net 共分为四部分：问句和段落编码（Question and Passage Encoder）、门控注意力循环网

2020-08-20 01:03:26 1724

原创 XLNet: 通用自回归预训练语言理解（Generalized Autoregressive Pretraining for Language Understanding）

文章目录引言提出的方法背景引言AR模型以前向或后向的方式建模语言模型p(x)=∏t=1Tp(xt∣x<t)orp(x)=∏t=T1p(xt∣x>t)p(\bm x)=\prod\nolimits_{t=1}^Tp(x_{t}|\bm x_{<t})\quad or\quad p(\bm x)=\prod\nolimits_{t=T}^1p(x_{t}|\bm x_{>t})p(x)=∏t=1Tp(xt∣x<t)orp(x)=∏t=T1p(xt∣x>t

2020-08-11 23:18:51 1081

原创 Transformer-XL: 非固定长度上下文的注意力语言模型（Attentive Language Models Beyond a Fixed-Length Context）

Transformers可潜在地学习长期依赖关系，但受到固定上下文的限制，当待处理的文本长度超过固定长度时：训练阶段，需将输入文本分割成不同分段，不同分段独立训练，由于分段未考虑语义边界，可能造成模型缺乏上下文信息预测分段中的前几个字符，产生上下文碎片问题；预测阶段，每次移动一个输入单元，引入大量重复计算，预测效率低；Transformer-XL基于循环分段机制和相对位置编码，克服vanilla Transformers的固定上下文长度的缺陷，并能够解决分段造成的上下文碎片问题。Transf

2020-08-10 14:53:43 800

原创向量和矩阵求导（运用迹性质求导）

文章目录矩阵对标量求导标量对矩阵求导向量对向量求导（雅可比矩阵）向量求导的链式法则矩阵迹实值函数对向量求导参考资料1. 机器学习中的矩阵、向量求导矩阵对标量求导求导结果与函数（矩阵）同型，即导数结果的每个元素就是矩阵相应分量对标量的求导。若函数矩阵f\boldsymbol ff是一个m×nm\times nm×n维矩阵，则求导结果也是一个m×nm\times nm×n维矩阵，其中(∂f∂x)ij=∂fij∂x\left(\frac{\partial\boldsymbol f}{\partia

2020-08-02 18:05:32 1564

原创最大熵模型（ME）和最大熵马尔可夫模型（MEMM）

文章目录最大熵模型（Maximum Entropy Model, MEM）最大熵思想最大熵模型表示最大熵模型学习最大熵模型求解过程举例最大熵模型与极大似然估计最大熵模型与逻辑回归模型学习之改进的迭代尺度法（Improved Iterative Scaling，IIS）ME总结最大熵马尔可夫模型（Maximum Entropy Markov Model, MEMM）MEMM标注偏置问题最大熵模型（Maximum Entropy Model, MEM）最大熵思想无更多信息的情况下，最随机的推断（概率分布

2020-07-12 15:25:00 2585

原创隐马尔可夫模型（HMM模型学习、概率计算、解码）

文章目录通信模型马尔可夫假设和马尔可夫过程隐马尔可夫模型和通信模型HMM模型表示HMM概率计算前向递推公式后向递推公式前后向算法之间的关系一些概率计算公式HMM模型学习监督学习方法期望最大化算法HMM预测/解码贪心近似算法维特比算法HMM局限通信模型发送者（人或机器）发送信息时，需通过媒介（空气或电线）传播信号，此过程为广义上的编码。接收者根据规则将信号还原成发送者发送的信息，此过程为广义上的解码.语音识别是接收方根据接收信号还原发送方的信息的过程，如何通过观测信号o1,o2,⋯o_1,o_2,\c

2020-07-11 08:57:27 1089

原创详解Lucene全文检索基础架构

文章目录数据查询方法什么是LuceneLucene全文检索流程索引流程搜索流程Lucene演示索引过程索引演示搜索过程Field域类型索引维护分析器（Analyzer）Lucene原生分析器第三方中文分词器Lucene高级搜索Lucene底层储存结构（高级）词典的构建跳跃表原理FST原理Lucene优化（高级）解决大量磁盘IO选择合适的分词器选择合适的位置存放索引库本文是bilibili-《超系统学习Lucene全文检索技术》的学习笔记。数据查询方法顺序扫描法数据表中查询包含某个字符串的文档，逐行

2020-07-09 20:45:02 1734

原创红黑树、B树和B+树

红黑树（Red Black Tree，RBT）红黑树是一种自平衡二叉搜索树，通过在插入和删除时调整二叉树结构，保持二叉树深度平衡，提高查找效率。红黑树的五点特性：每个节点的颜色是黑色或者红色；根节点为黑色；叶节点（NULL）是黑节点，实际不存在；红节点的子节点是黑节点；从一个节点到叶节点的路径上包含相同数目的黑节点，黑色平衡树；特性5保证红黑树从根节点到叶节点的最长路径不大于最短路径的两倍，保证黑色平衡的特性。由于这一约束的存在，将插入节点的颜色标记为红色，能够尽可能避免自平衡，插入黑色

2020-07-09 00:44:00 6068

原创纯Numpy实现K-Means聚类

Python代码，包含距离计算、簇中心更新和可视化import matplotlib.pyplot as pltimport numpy as npimport randomdef distance(x, y): """欧式距离 input: x: shape=(n_samples, n_features) y: shape=(k, n_features) output: z: shape=(n_smaples, k)

2020-07-08 18:19:45 1268

原创【论文解读】VAE: Auto-Encoding Variational Bayes（变分自编码器）

基于潜变量的生成模型模型联合概率分布可表示为pθ(x,z)=pθ(x∣z)pθ(z)p_{\theta}(x,z)=p_\theta(x|z)p_\theta(z)pθ(x,z)=pθ(x∣z)pθ(z)，模型的生成过程为z∼pθ(z) ⟹ x∼pθ(x∣z)z\sim p_\theta(z) \implies x\sim p_\theta(x|z)z∼pθ(z)⟹x∼pθ(x∣z)考虑一个独立同分布数据集X={x(i)}i=1NX=\{x^{(i)}\}_{i=1}^NX={

2020-06-29 16:17:03 14919

原创生成对抗网络（Generative Adversarial Nets, GANs）

GANs生成器generator和判别器discriminator均使用多层感知机。定义输入噪声先验分布pz(z)p_z(z)pz(z)，生成器Gz(z;θg)G_z(z;\theta_g)Gz(z;θg)将其映射至真实数据分布。判别器D(x;θd)D(x;\theta_d)D(x;θd)输出标量，表示数据来自于真实分布的概率。训练判别器，使之尽可能区分输入来自于真实样本还是生成器生成样本；训练生成器，尽可能使判别器对其输出认为是来自于真实样本。因此，生成器和判别器互相对抗，优化判别器降

2020-06-24 00:43:59 759

原创【论文解读】Deep Biaffine Attention for Neural Dependency Parsing（基于深层双仿射注意力的神经网络依存解析）

文章目录代码实现：github参考文献：https://www.hankcs.com/nlp/parsing/deep-biaffine-attention-for-neural-dependency-parsing.html

2020-06-22 09:26:11 8450 2

原创【论文解读】A Fast and Accurate Dependency Parser using Neural Networks（基于神经网络的高性能依存句法解析器）

文章目录Transition-based Dependency ParsingNeural Network Based Parser模型输入隐藏激活函数输出层模型训练Reference代码实现：基于tensorflow 2.2实现，代码见github。Transition-based Dependency Parsing从初始状态开始，每步贪婪预测下一步的动作（多分类取分数/概率最高的类别），如转移、生成左弧或右弧，直到所有单词的预测完毕（stack仅含根节点，buffer为空）。基于贪婪的预测结

2020-06-19 16:38:09 1732

空空如也

空空如也