
大语言模型学习笔记
文章平均质量分 80
大语言模型学习笔记
liuyunshengsir
全栈工程师
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
基于注意力机制的方法预测的体重
我们有一些已知的身高(作为键 KKK)和对应的体重(作为值 VVV)。现在,我们想使用一种基于注意力机制的方法来“查询”一个特定身高(比如 170cm)对应的体重。虽然这通常不是注意力机制的典型应用,但我们可以构造一个类似的计算过程。定义键和值:定义查询向量:计算相似度:应用 softmax 函数:计算加权求和:假设我们有以下数据:160165175180V=[50556570]V = \begin{bmatrix} 50 \\ 55 \\ 65 \\ 70 \end{bmatrix}V=5055原创 2025-07-01 21:24:12 · 883 阅读 · 0 评论 -
注意力得分矩阵求解例子
QKVdkAQKVQKTdkQKTsoftmaxdkQKTV下面通过一个具体的例子来验证这个公式。原创 2025-07-01 20:54:44 · 808 阅读 · 0 评论 -
Transformer结构--输入编码(BPE,PE)
在Transformer结构中,输入编码是模型处理文本数据的关键步骤,其中**BPE(Byte Pair Encoding,字节对编码)PE(Positional Encoding,位置编码)**是两种重要的编码方式,它们分别解决了分词和位置信息的问题。原创 2025-06-28 21:05:28 · 1047 阅读 · 0 评论 -
python 项目利用uv管理python包依赖
Transformer结构–输入编码(BPE,PE)原创 2025-06-28 20:11:43 · 212 阅读 · 0 评论 -
神经网络中的梯度的计算详解
梯度是神经网络训练的核心,它指导参数更新方向以最小化损失函数。梯度计算涉及链式法则、反向传播等关键技术,本文将围绕核心概念、计算步骤、实现方法及优化策略展开详细说明。原创 2025-06-21 14:29:44 · 357 阅读 · 0 评论 -
神经网络中的随机梯度下降(Stochastic Gradient Descent, SGD)详解
在神经网络的训练过程中,优化算法扮演着至关重要的角色。它们通过调整模型的参数(如权重和偏置),最小化损失函数,从而提升模型的性能。随机梯度下降(Stochastic Gradient Descent, SGD)是其中最基础且广泛使用的优化算法之一。原创 2025-06-22 00:15:00 · 1144 阅读 · 0 评论 -
神经网络中的交叉熵(Cross-Entropy)损失函数详解
在神经网络和机器学习领域,损失函数是衡量模型预测值与真实值之间差异的核心工具。交叉熵(Cross-Entropy)损失函数,作为一种广泛使用的分类损失函数,尤其在处理多分类问题时表现出色。它不仅具有坚实的理论基础,还在实际应用中展现出卓越的性能。原创 2025-06-21 15:45:00 · 1002 阅读 · 0 评论 -
神经网络中的均方误差(Mean Squared Error)详解
在机器学习和神经网络领域,损失函数(Loss Function)是衡量模型预测值与真实值之间差异的关键指标。均方误差(Mean Squared Error, MSE)作为一种经典的损失函数,因其简单性、可解释性和数学上的优良性质,在回归问题中得到了广泛应用。本文将深入探讨MSE的定义、原理、应用场景、优缺点以及在神经网络中的实现细节。原创 2025-06-21 11:04:40 · 1009 阅读 · 0 评论 -
神经网络基础组件精讲
神经网络是深度学习的核心架构,由多个基础组件构成:人工神经元作为基本计算单元,通过权重、偏置和激活函数进行非线性转换;单层神经网络实现简单映射,而多层神经网络通过隐藏层提取高阶特征;常见的激活函数包括Sigmoid、Tanh和ReLU,用于引入非线性能力;权重和偏置通过反向传播优化;输出层根据任务类型选用不同激活函数。这些组件协同工作,使神经网络能够学习复杂模式,解决分类、回归等多样化问题。理解这些基础结构对掌握深度学习原理至关重要。原创 2025-06-18 20:40:15 · 1049 阅读 · 0 评论 -
共现计数(Co-Occurrence Counts):自然语言中的语义关联量化基石
共现计数(Co-Occurrence Counts):自然语言中的语义关联量化基石原创 2025-06-17 09:01:59 · 376 阅读 · 0 评论 -
分布式词表示(Distributed Word Representation):自然语言处理的核心基石
分布式词表示(Distributed Word Representation):自然语言处理的核心基石原创 2025-06-17 08:59:12 · 450 阅读 · 0 评论