克斯维尔的明天

原创 A Connection Between Score Matching and Denoising Autoencoders

本文揭示了分数匹配(Score Matching)与去噪自编码器(Denoising Autoencoders)之间的深刻联系。通过理论分析表明，去噪自编码器的训练准则等价于匹配特定能量模型的分数与Parzen密度估计器的分数。研究为去噪自编码器建立了概率模型框架，使得从训练好的模型中采样成为可能，同时为编码器-解码器权重绑定提供了理论依据。关键数学推导证明了显式分数匹配与去噪分数匹配的等价性，并展示了当采用特定形式的能量函数时，去噪自编码器实际上是在隐式地实现分数匹配。这些发现不仅统一了两种看似不同的方法

2025-08-10 12:59:29 546

原创 CS236 深度生成模型 - 第5讲：潜在变量模型

潜在变量模型优点易于构建灵活的模型适合无监督学习潜在变量模型缺点难以计算似然难以通过最大似然训练从根本上说，挑战在于后验推断pz∣xp(z|x)pz∣x很难通常需要变分近似替代方案：放弃KL散度和似然（生成对抗网络，GANs）

2025-08-06 17:06:49 984

原创 CS236 深度生成模型 - 第4讲：最大似然学习

本讲主要讨论最大似然学习（Maximum Likelihood Learning），包括：给定一个训练样本集（例如狗的图片），我们希望学习一个概率分布 p(x)p(x)p(x) 使得：首要问题：如何表示 pθ(x)p_\theta(x)pθ(x)？次要问题：如何学习 pθ(x)p_\theta(x)pθ(x)？假设数据由某个基础分布 PdataP_{data}Pdata 生成，我们获得来自 PdataP_{data}Pdata 的 mmm 个样本的数据集 DDD，每个样本是变量的赋值，例如 (Xb

2025-08-06 17:04:47 637

原创 CS236 深度生成模型 - 第3讲：自回归模型

CS236课程第3讲介绍了自回归模型及其在生成建模中的应用。主要内容包括：1）通过链式法则分解联合概率分布；2）三种表示方法（完全通用、贝叶斯网络和神经网络模型）；3）自回归模型的基本思想，包括FVSBN和NADE两种具体实现；4）参数共享技术以减少计算复杂度；5）处理非二元离散变量的扩展方法。课程重点展示了如何利用神经网络参数化条件概率分布，实现高效的概率评估和采样，为图像生成等任务提供理论基础。参数数量从O(n²)优化到O(nd)，显著提升了模型的可扩展性。

2025-08-06 17:03:45 720

原创 CS236 生成模型 - 第2讲：表示方法

本讲介绍了深度生成模型的基本表示方法。主要内容包括：1) 生成模型的定义与三大功能（生成样本、密度估计和无监督表示学习）；2) 离散概率分布（伯努利分布和分类分布）及其联合分布表示；3) 通过独立性假设简化模型结构，包括链式法则和贝叶斯规则的应用；4) 贝叶斯网络的表示方法及其优势；5) 生成模型与判别模型的比较，重点分析了朴素贝叶斯和逻辑回归在参数化方式和假设条件上的差异。课程强调如何通过条件独立性假设和概率图模型的结构化表示来有效降低模型复杂度。

2025-08-06 17:01:30 587

原创整点论文——Generatie Modeling by Estimating Gradients of the Data Distribution

本文提出了一种基于分数匹配和朗之万动力学的生成建模新方法。核心思想是学习数据密度对数的梯度（分数），并利用该分数通过朗之万动力学生成样本。然而，该方法面临两个主要挑战：1）当数据位于低维流形时，环境空间中的分数定义不明确；2）低密度区域的分数估计不准确会阻碍采样过程。为解决这些问题，作者提出使用多尺度噪声扰动数据，训练基于噪声水平的分数网络，并采用退火朗之万动力学进行采样。论文详细阐述了分数匹配的不同实现方式（去噪和切片分数匹配），并分析了在流形假设下传统方法的局限性。该方法通过噪声扰动避免了流形坍缩问题，

2025-08-05 09:59:56 554

原创整点论文——Estimation of Non-Normalized Statistical Models by Score Matching

摘要：本文介绍了Aapo Hyvärinen提出的Score Matching方法，用于估计非标准化概率模型参数。该方法通过最小化模型得分函数与数据得分函数之间的期望平方距离，避免了计算复杂的归一化常数。关键优势包括计算简单、理论保证和无需MCMC采样。论文证明了在模型非退化条件下，该方法具有局部一致性，即估计量能收敛到真实参数值。核心公式将目标函数转化为仅依赖模型概率密度函数的形式，使其在实际应用中更易计算。

2025-08-05 09:56:08 927

原创整点论文——Neural Ordinary Differential Equations

摘要： Neural ODE将神经网络视为微分方程求解器，通过优化微分方程的解与真实解的差异来训练模型。相比传统神经网络，它具有表示能力强、内存高效、设计简洁等优势。ResNet的残差块可视为欧拉法的离散特例。Neural ODE通过建模连续动态系统 ( \frac{dh(t)}{dt} = f(h(t),t,\theta) )，利用数值积分求解。训练时采用伴随灵敏度法高效计算梯度，避免反向传播的内存开销。该方法通过增广ODE联合优化状态、参数和时间变量，实现端到端训练，为连续时间建模提供了新范式。

2025-07-31 22:17:29 837

原创整点论文——Normalizing Flow

归一化流(Normalizing Flow)是一种通过变量替换定理直接计算数据概率分布的方法。它将复杂数据分布逐步转换为简单先验分布(如高斯分布)，利用可逆变换和雅可比行列式计算概率密度。关键步骤包括分块耦合层(部分维度变换)、交替耦合(确保所有维度都被处理)和最终缩放操作。该方法通过最大化对数似然来优化模型，避免了变分下界的近似计算，能够精确建模数据分布。归一化流的优势在于直接优化真实似然函数，而非近似下界，但需要设计可逆变换并高效计算雅可比行列式。

2025-07-31 22:08:26 564

原创概率机器学习——6. 线性回归模型(2)

如前所述，最小二乘法可以看成对概率模型的最大似然估计，存在过拟合的风险；同时，为了对估计的质量进行刻画，需要考虑多次重复性实验(即对多次的训练数据集D进行平均)。这种“重复实验”的范式在实际应用中存在不足，首先，多次重复实验带来更多的计算代价。其次，如果有多个训练集，更加有效的方式应该是将其合并成一个更大的数据集，更加充分的训练模型。贝叶斯推断提供了另外一种思路，在给定一个数据集的情况下，刻画模型自身的不确定性，可以有效避免过拟合。同时，带有正则化项的回归模型可以看作贝叶斯推断的特例。

2025-07-08 12:57:37 619

原创概率机器学习——5. 线性回归模型(1)

线性回归模型是一种基本的有监督学习方法，用于建立输入特征向量x与输出y之间的线性关系。模型通过最小化损失函数（如平方误差）来估计参数w，最优解为ŵ=(XᵀX)⁻¹Xᵀy。从概率角度看，线性回归可以视为加性噪声模型，其中y服从以wᵀx为均值、σ²为方差的正态分布。最大似然估计与最小二乘法在此模型下等价。模型性能受偏差-方差权衡影响，需要在估计准确性与泛化能力之间取得平衡。

2025-07-06 20:49:52 996

原创概率机器学习——4. 信息论基础

摘要：本文介绍了信息论中的核心概念，包括熵、互信息和相对熵。熵(H(X))度量随机变量的不确定性，定义为概率分布的对数期望值。互信息(I(X,Y))衡量两个变量间的相互依赖关系，可表示为熵与条件熵之差。相对熵(KL散度)比较两个概率分布的差异，满足非负性。这些概念在离散和连续随机变量中均有对应定义，为信息度量提供了理论基础。

2025-07-04 13:54:23 636

原创概率机器学习——3. 统计推断与贝叶斯推断

统计推断是机器学习中的核心任务，旨在从观测数据推断背后的概率分布或其参数。主要分为参数化模型（有限参数）和非参数化模型（无限参数）。参数估计方法包括频率学派的点估计（如最大似然估计MLE）和贝叶斯推断。MLE通过最大化似然函数寻找最优参数，而贝叶斯方法将参数视为随机变量，计算其后验分布。MLE计算高效但可能过拟合，贝叶斯方法提供不确定性量化但计算复杂。评估指标包括无偏性、有效性和均方误差。贝叶斯推断通过贝叶斯定理更新参数分布，适用于小样本和需要不确定性分析的场景。

2025-07-04 13:15:19 490

原创概率机器学习——2. 常用概率分布

多元正态分布描述多维连续数据；正态逆维希特分布作为其共轭先验，提供了一种动态更新均值向量和协方差矩阵联合信念的机制；这种关系简化了贝叶斯推断的计算，使得在观测数据后，后验分布仍能保持解析形式，便于实际应用（如金融建模、机器学习等）。

2025-07-04 11:22:31 256

原创概率机器学习——1. 概率概述

本文介绍了概率论的基本概念。首先定义了随机变量及其离散与连续分布，接着阐述了联合概率表示多个变量的共同分布。通过边缘化可以从联合概率获得单变量分布。条件概率描述了给定其他变量时的概率关系，并推导出贝叶斯公式。独立性表示变量间无信息关联。最后讨论了期望的定义、特殊形式及其四条基本性质：常数期望、线性性、加法性和独立变量的乘积性。这些概念构成了概率论的基础框架。

2025-07-04 01:36:03 398

原创 Transformer中的嵌入与位置编码

该文章主要探讨了Transformer模型中的嵌入与位置编码，为后续的模型框架提供基础。

2025-07-04 01:24:41 1008

原创 How to Sort using C++?

这篇文章系统介绍了排序的基本概念、分类和常见算法，主要包括插入排序和交换排序两大类。首先阐述了排序的定义、稳定性和内外部排序的区别，将内部排序分为插入、交换、选择、归并和分配五类。然后重点讲解了三种插入排序算法（直接插入、折半插入和希尔排序）和两种交换排序算法（冒泡排序和快速排序），详细说明了每种算法的原理、实现代码、时间复杂度分析及其适用场景。文章分析了各种算法在不同数据情况下的性能表现，为选择合适排序方法提供了理论依据。

2025-07-04 00:59:29 624

原创 Hash Table in C++

散列表是一种通过关键字直接访问元素存储位置的数据结构，核心是散列函数的设计。文章介绍了散列表的基本概念、构造散列函数的方法（如直接定址法、折叠法、除留余数法等）以及解决冲突的两种主要方法：闭散列法（包括线性探测、二次探测和双重散列）和开散列法（链地址法）。闭散列法在数组内部寻找可用地址，而开散列法使用链表存储同义词。文章还提及了散列表的实现要点，包括抽象数据类型定义和常用操作。散列表技术的关键在于选择高效的散列函数和合适的冲突处理方法。

2025-07-03 14:25:01 985

原创 Graph in C++

摘要图是一种复杂的非线性数据结构，由顶点集合V和边集合E组成，表示为G=(V,E)。图可分为无向图和有向图，前者边无方向，后者边（弧）有方向。完全图分为无向完全图（任意两顶点相连）和有向完全图（任意顶点有弧到达其他顶点）。图的存储结构包括邻接矩阵、邻接表等，邻接矩阵用n×n矩阵表示顶点关系，对无向图是对称矩阵。图的遍历有深度优先搜索(DFS)和广度优先搜索(BFS)两种方法。其他重要概念包括子图、权值、度（入度/出度）、路径、连通性（连通图/强连通图）、生成树等。

2025-07-03 14:24:17 591

原创树和二叉树的应用

哈夫曼树是一种最优二叉树，用于数据压缩编码。其核心特点是带权路径长度(WPL)最小，权值大的结点靠近根结点。哈夫曼算法通过合并权值最小的两棵子树逐步构建哈夫曼树，最终得到包含2n-1个结点的结构。哈夫曼编码利用该树生成前缀码，实现不等长编码，高频字符用短码表示，低频字符用长码表示，既保证无歧义解码，又能显著减少数据存储和传输量。典型的实现包括创建哈夫曼树、生成编码表等操作，广泛应用于通信和数据压缩领域。

2025-07-03 14:22:45 882

原创树和二叉树

本文介绍了树和二叉树的基本概念及其性质。主要内容包括：树的基本术语定义（根结点、叶子结点、度、层次等）和特征说明。二叉树的定义及其五种特殊类型（满二叉树、完全二叉树、正则二叉树、扩充二叉树）的详细说明。二叉树的抽象数据类型定义，包含基本操作接口。二叉树五条重要性质的详细证明，涉及结点数量、层次关系及完全二叉树的特点等。二叉树的两种存储结构（顺序存储和链式存储）的实现方法及其适用场景分析。本文全面系统地阐述了树和二叉树的理论基础，为后续的树结构算法实现和应用奠定了理论基础。

2025-07-03 14:21:57 530

原创 String in C++

串是一种数据元素为字符的线性表，其操作对象通常是一组字符而非单个元素。串由字符序列组成，具有长度、空串、子串等基本概念。串的实现可以采用顺序存储结构，通过动态数组管理存储空间。主要操作包括：构造串、拷贝串、比较串、取子串、插入删除子串等。串的顺序存储类String包含容量管理、长度获取、模式匹配等功能，并重载了运算符以支持串比较、连接等操作。实现时需处理边界条件，如越界访问和无效长度等异常情况。串结构广泛应用于文本处理、模式匹配等领域。

2025-07-03 14:21:19 847

原创 Stack & Queue in C++

摘要栈和队列是两种特殊的线性结构，具有受限的操作方式。栈遵循"后进先出"(LIFO)原则，仅允许在表的一端（栈顶）进行插入（push）和删除（pop）操作。顺序栈通过数组实现，使用栈顶指针top跟踪元素位置，当栈满时需要扩容。链栈采用链表结构，无需考虑容量限制。双栈共享存储空间可以有效利用内存。队列则遵循"先进先出"(FIFO)原则。栈的基本操作包括判空、求长度、压栈、弹栈和取栈顶元素等，核心操作时间复杂度为O(1)，是算法设计中常用的数据结构。

2025-07-03 14:20:37 549

原创 Linear List in C++

线性表是最基本的数据结构之一，具有以下特点：线性表是n个相同类型元素的有限序列，元素之间存在顺序关系除首尾元素外，每个元素都有唯一的前驱和后继可以通过顺序存储（顺序表）或链式存储（链表）实现顺序表采用连续内存空间存储元素，支持随机访问，时间复杂度为O(1)。主要操作包括：插入/删除：平均需要移动元素，时间复杂度O(n) 查找：顺序查找时间复杂度O(n) 遍历：时间复杂度O(n) 顺序表的实现要点：动态数组存储元素维护当前长度和最大容量支持扩容操作提供基本操作如插入、删除、查找等

2025-07-03 14:19:19 696

原创 C++中的面向对象编程

C++面向对象编程(OOP)将现实世界实体抽象为类和对象，通过封装、继承、多态等特性实现代码模块化和重用。类作为用户定义的数据类型，包含数据成员和成员函数；对象则是类的具体实例。访问修饰符(public/private/proprotected)控制成员访问权限，private成员需通过getter/setter方法访问。OOP优势包括数据封装、代码复用、抽象化和多态性，使程序更安全、灵活和可维护。

2025-07-03 14:12:49 845

原创 Step-by-Step Diffusion&Flow Model Notes

从零开始学习扩散模型与流模型！

2025-07-03 14:09:37 683

原创扩散模型奠基与DDPM

本文系统阐述了扩散概率模型(DDPM)的基本原理。模型通过前向过程逐步将数据分布转化为简单分布，再通过反向过程从噪声中重建数据。关键假设指出当加噪幅度足够小时，反向过程与前向过程具有相同分布形式。作者详细推导了反向过程的数学表达，并通过对数似然函数建立了证据下界(ELBO)来优化模型。理论分析表明，通过合理设计马尔可夫转移核，可以实现从噪声到数据的有效生成。文章为理解扩散模型提供了严谨的理论框架，也为后续研究奠定了重要基础。

2025-07-03 13:48:38 935

原创 Mean Flows Note

本文提出了MeanFlow模型，一种基于平均速度概念的流匹配改进方法。传统流匹配通过瞬时速度场建模概率分布转换，而MeanFlow引入平均速度场，定义为两个时间步间位移的时间平均。该方法通过重构平均速度定义方程，推导出训练目标。训练时最小化该目标，生成时只需单步计算，支持高效的一步采样

2025-07-03 13:39:17 724

原创 MIT 6.S184 Lec 04 Building An Image Generator

本文介绍了MIT课程中关于条件图像生成模型的内容。首先回顾了无条件生成模型的基本框架，包括条件流匹配目标函数和采样过程中的ODE模拟。接着重点讲解了引导式扩散模型(Guided Diffusion Model)，它通过引入提示变量y实现条件生成。文章详细推导了高斯概率路径下的条件流匹配目标，并提出了无分类器引导(Classifier-Free Guidance)技术，通过放大引导项系数ω来增强提示词的影响效果。最后讨论了图像生成中的网络架构选择，包括U-Net和扩散转换器(DiTs)两种主流方案。

2025-07-03 13:30:16 1022

2401_89678770的博客