MYH516-CSDN博客

原创在深度学习对话机器人中，NLU、DST、DPO、NLG 的含义如下：

2025-09-09 20:55:20 161

原创 gelu和relu的区别?

ReLU：是一种分段线性函数，定义为 \(f(x) = \max(0, x)\) 即当输入\(x \geq 0\)时输出x，当\(x < 0\)时输出 0。GELU。

2025-09-04 10:25:02 167

具体来说，当计算完 Q 和 K 的矩阵乘积（得到相似度分数矩阵）后，会将结果除以一个缩放因子（通常是\(\sqrt{d_k}\)，其中\(d_k\)是 Q 和 K 的维度），然后再应用 softmax 函数进行归一化。所以，QK 相乘后不仅需要归一化，而且通常会先进行缩放再用 softmax 归一化，这是自注意力机制中的标准操作。在自注意力机制中，Q（查询）和 K（键）的乘积通常需要进行归一化处理，这是非常重要的一步。

2025-09-04 10:24:14 184

原创 bert适用于什么场景? chatGPT适合什么任务?

BERT 适用于以下场景：ChatGPT 适合以下任务：

2025-09-04 10:23:40 245

原创导数和梯度的区别?

维度导数 (Derivative)梯度 (Gradient)适用函数单变量函数：\(y = f(x)\)（仅 1 个自变量x）多变量函数：\(z = f(x_1, x_2, ..., x_n)\)（\(n≥2\)个自变量）数学本质标量 (Scalar)：表示函数在某点的 “瞬时变化率”向量 (Vector)：表示函数在某点 “变化最快的方向 + 变化率大小”几何意义函数曲线在该点的切线斜率函数曲面（或超曲面）在该点的 “最陡上升方向” 的向量符号表示。

2025-09-04 10:20:14 794

原创详细描述Adam优化器(每一步!!)

同理，\(v_t\)也存在初始偏差（因\(v_0=0\)且\(β_2\)接近 1），需要修正： \(\hat{v}_t = \frac{v_t}{1 - β_2^t}\)最终的参数更新公式为： \(θ_t = θ_{t-1} - \frac{η}{\sqrt{\hat{v}_t} + ε} \cdot \hat{m}_t\)，模拟物理中的 “动量”，用于平滑梯度方向，加速收敛： \(m_t = β_1 \cdot m_{t-1} + (1 - β_1) \cdot g_t\)一阶矩\(m_t\)是。

2025-09-04 10:19:17 324

原创梯度下降的SGD是怎么做的?

首先明确待优化的模型（如线性回归、神经网络）和对应的损失函数。以线性回归模型预测值：\(\hat{y}_i = w \cdot x_i + b\)（w为权重，b为偏置，\(x_i\)为第i个样本的特征）损失函数（均方误差）：\(L(w, b) = \frac{1}{2}(y_i - \hat{y}_i)^2\)（\(y_i\)为第i个样本的真实标签）SGD 的核心是 “随机单样本估计梯度，高效迭代更新参数”，它通过牺牲单次梯度的准确性换取了训练效率的大幅提升，是大规模机器学习的基石。

2025-09-04 10:18:03 810

原创 Kmeans的K如何选取

初步筛选：用手肘法 + CH 指数确定 K 的候选范围（如 K=2~5）；精细评估：对候选 K 值计算轮廓系数 + DB 指数，筛选出指标最优的 2~3 个 K 值；业务落地：分析这 2~3 个 K 值的聚类结果，选择业务含义清晰、可执行的 K 值作为最终解。通过这种 “定量 + 定性” 的结合，才能选出真正有价值的 K 值，让 K-Means 聚类的结果服务于实际业务决策。

2025-09-03 16:46:17 608

原创思维链和思维树的区别，思维树的每个节点是等可能的吗，会有无限的路径吗，思维树的结果是怎么得出来的

思维链是 “线性推理”，适用于步骤明确的问题；思维树是 “分支推理”，适用于需要多选项探索的复杂问题。思维树的节点并非等可能，由逻辑合理性和目标相关性决定权重。理论上路径可无限，但实际中会被目标、资源等约束限制。最终结果是通过 “生成 - 评估 - 修剪 - 收敛” 的流程，从多路径中筛选出的最优或合理解。

2025-09-03 15:56:35 429

原创数据的实体识别数据格式是怎么样的

NER 数据格式的核心是 “文本 + 实体位置 + 实体类型” 的绑定，BIOES 序列标注和JSONL 跨度标注是最通用的两种格式 —— 前者适合常规 NER 任务，后者适合复杂实体和工程化场景。选择时需结合语言、工具、模型和数据量综合判断，必要时通过脚本进行格式转换，以适配不同环节的需求。

2025-09-03 15:55:00 379

原创亿级数据要训练，你怎么把他们导入作训练

处理亿级数据训练导入的核心是 “避免全量加载，优化 IO 效率，分布式协同用 Parquet/TFRecord 等高效格式存储，结合分布式文件系统扩容；离线预处理 + 训练时动态增强，减少重复计算；基于tf.dataDataLoader实现流式加载，多进程 / 多节点并行读取；通过硬件升级（SSD）和监控调优，确保数据供应不成为训练瓶颈。这种方案既能适应单机有限内存，也能扩展到分布式集群，兼顾效率与稳定性。

2025-09-03 15:50:47 665

原创 self attention中，qk除以根号下dk这一步，可以理解为将q，k两个mean为0，var为1的矩阵的乘积qk的方差归一化，为什么q，k是mean为0，var为1的矩阵

在训练过程中，通过批量归一化（Batch Normalization）或层归一化（Layer Normalization）等技术，会进一步将输入特征 X 的分布标准化为均值 0、方差 1。通常采用随机初始化（如 Xavier 初始化），这种初始化方式会确保输出的 Q、K 矩阵具有近似为 0 的均值和 1 的方差。简单来说，Q 和 K 的标准化分布是模型设计（初始化 + 归一化）的结果，而除以。是对这种分布下内积结果的必要调整，两者共同保证了自注意力机制的稳定运行。

2025-09-03 15:49:31 108

原创从sgd到adam的两种演进方向是什么，一种是adamw，具体做了什么，有什么改进

从 SGD 到 Adam 的两种演进方向分别是引入动量和自适应学习率。AdamW 是在 Adam 基础上进行改进的优化器，它通过将权重衰减从梯度更新中解耦，从而更有效地应用权重衰减。

2025-09-03 15:33:22 150

原创定义图数据库（知识图谱）模式（Schema）的配置

哪些实体存在、实体间能有哪些关系、实体如何分类、实体 / 关系有哪些属性等。后续构建知识图谱时，会依据这个模式来组织数据（比如前面代码里处理的三元组数据），确保数据能按照统一、规范的结构存入图数据库，也让图谱的查询、分析等操作有清晰的结构依据。图数据库的模式就像 “蓝图”，

2025-09-02 15:47:32 222

原创 nl2sql是什么

NL2SQL 是 “自然语言处理” 与 “数据库技术” 融合的典型落地场景，其本质是消除 “人类语言” 与 “机器语言” 之间的鸿沟。随着大模型技术的发展，NL2SQL 的准确率和泛化能力持续提升，正逐步从 “辅助工具” 转变为 “人人可用的数据交互入口”，推动数据价值的普惠化。

2025-09-02 14:02:32 461

原创 neo4j

代码末尾的MATCH和RETURN语句用于可视化展示整个图谱：匹配所有 “节点 - 关系 - 节点” 的三元组；：在 Neo4j 的图形界面中，以 “节点（圆圈）+ 关系（连线）” 的形式显示所有数据。这个知识图谱清晰地描述了 “作家 - 图书 - 出版商 - 读者” 之间的核心业务关系，可用于后续的查询分析（比如 “查 Bob 读了哪些书”“哪些奇幻小说由英国出版商出版” 等），是图数据库（Neo4j）中典型的结构化数据建模案例。

2025-09-02 13:29:49 654

原创基于知识图谱的电商行业使用场景

知识图谱通过构建实体（如商品、用户、品牌）、属性（如商品价格、用户年龄）及关系（如 “用户购买过商品”“商品属于某品牌”）的结构化网络，能深度挖掘电商数据的关联价值，在精准运营、用户体验优化、供应链管理等核心环节实现突破。以下从三大维度，详细拆解其具体使用场景。

2025-08-29 19:39:38 499

原创电商 FAQ 知识问答库的使用场景

在电商行业中，FAQ（常见问题解答）知识问答库是一个极为重要的工具，它如同一个智能助手，在多个场景中发挥着关键作用，提升用户体验，助力商家高效运营。以下详细介绍其常见使用场景。

2025-08-29 19:38:01 588

原创电商行业 FAQ（常见问题解答）

对用户：减少等待，提升 “自主服务” 的便捷性；对企业：降低客服人力成本、培训成本、沟通成本；对行业：推动服务标准化，减少因 “信息差” 导致的纠纷。

2025-08-29 19:37:33 564

原创 BPE训练

这段代码的核心目标是基于自定义 txt 数据训练一个 BPE 分词器导入依赖 → 2. 初始化 BPE 分词器（绑定预分词规则） → 3. 配置训练器（指定词表大小、特殊符号） → 4. 遍历文件夹收集 txt 训练数据 → 5. 训练分词器 → 6. 保存分词器和词表。训练后的分词器可用于 NLP 任务（如文本编码、模型预训练），词表文件则方便人工检查分词效果。

2025-08-29 15:23:05 682

原创 bpe对数据会做什么操作

让我们详细分析 BPE 算法如何处理这个语料库：原始语料库包含：BPE 的工作过程是迭代地合并最频繁的字符对，下面是详细步骤：所有词被拆分为单个字符，并添加结束标记：统计所有相邻字符对的出现次数：最频繁的是 (w, e) 出现了 6 次，所以合并它们为 "we"合并后结果：现在最频繁的是 (l, o) 和 (o, w) 各出现 5 次，假设选择 (l, o) 合并为 "lo"合并后：现在最频繁的是 (lo, w) 出现 5 次，合并为 "low"合并后：最终，经过足够迭代后，我们会得到这样的分词结果：BPE

2025-08-29 15:05:41 725

原创 BPE（Byte Pair Encoding）算法

BPE 的词表本质是 **“高频共现子词的集合”**，其构建过程完全依赖于对语料中相邻子词对的频率统计：频率越高的组合，越容易被合并为新子词并加入词表。因此，词表中每个子词的存在都对应着它在训练语料中的出现频率 —— 高频组合形成长子词，低频组合保持拆分状态。这也是为什么 BPE 能有效平衡词表大小和未登录词（OOV）问题：既用高频子词覆盖常见表达，又用字符级拆分处理罕见词。

2025-08-28 01:25:33 634

原创 BPE算法和默认的BERT词表相比区别是

BPE 算法是一种分词算法，而 BERT 词表是基于特定算法构建的词汇集合，二者概念不同。

2025-08-28 01:23:43 310

原创 MCP RAG（检索增强生成）

在 MCP（模型上下文协议）场景中，RAG（检索增强生成）与文本匹配有较多结合，主要体现在动态工具检索和上下文增强等方面。

2025-08-25 16:52:22 144

原创 “龘”（dá）这个生僻字在 BPE 中的处理方式

龘” 在 BPE 中的体现，本质是用字节级单元作为最终兜底：当生僻字无法通过汉字或子词拆分时，就拆解为最基础的编码字节，利用字节 token 的完备性（覆盖所有可能的字符编码）实现对任意字符的表示。这也是 BPE 能处理所有语言中极端罕见字符的核心逻辑。

2025-08-25 15:39:58 178

原创在中文中，BPE 处理生僻词

中文 BPE 通过以汉字为基础单元，结合字节级兜底机制大部分生僻词可拆分为已知汉字（基础单元）；极端罕见字符通过 UTF-8 字节拆分，用字节级 token 覆盖；本质上与英文 BPE 一致：不依赖完整词的存在，而是通过更小的、可复用的子单元（汉字 / 字节）来表示任意文本，包括生僻词。这也是为什么中文大模型能处理训练数据中未见过的生僻词 —— 它们被拆解为了模型 “认识” 的基础单元。

2025-08-25 15:39:06 316

原创使用 BPE 后，即使遇到词表中没见过的词也能转换

使用 BPE 后，即使遇到词表中没见过的词也能转换，这是因为 BPE 将单词拆分成了子词单元，未登录词可由已知子词组合表示，原理主要基于子词分词机制和频率统计合并策略，具体如下：

2025-08-25 15:38:01 104

原创 BPE（Byte Pair Encoding，字节对编码）

BPE（Byte Pair Encoding，字节对编码）是一种子词级分词算法，核心是通过迭代合并高频字符或子词对生成高效词汇表，平衡词汇表大小与语义表达精度。

2025-08-25 15:37:17 193

原创很多大语言模型数不对 “strawberry” 中 “r” 的数量，主要是由模型的技术原理和特性导致的

很多大语言模型数不对 “strawberry” 中 “r” 的数量，主要是由模型的技术原理和特性导致的，具体原因如下：

2025-08-25 15:36:36 146

原创 GPT - 4 和豆包幻觉

大语言模型产生幻觉，从数据层面看，训练数据若含有错误、偏见或重复信息，模型可能学习并记忆这些不准确内容；从模型层面来说，模型结构、解码算法及训练过程中的偏差等，均可能导致幻觉的产生。

2025-08-25 15:36:14 334

原创 GPT - 4 进行大语言模型（LLM）答案评价

事实性问题有明确、客观的答案（像历史事件发生时间、科学定理内容等），但 GPT - 4 本身基于训练数据生成输出，其训练数据可能存在过时、错误，或在处理事实性内容时，受模型推理逻辑等影响，难以精准判别答案是否完全符合客观事实，会导致对涉及事实类问题的 LLM 答案排序出现偏差，无法可靠区分事实性内容的对错优劣。这种评价方式有一定应用价值，但因事实性判断短板，使用时要结合场景，对于非事实性、侧重语言表达和逻辑的内容评价较合适，涉及事实类则需辅助人工核查等手段。

2025-08-24 16:29:01 393

原创大型语言模型（LLM）的评价

LLM 的评价没有 “单一最优方法”，需根据评价目标（如 “测试知识广度” vs “验证医疗场景安全性”）、资源约束若需快速对比多个模型的通用能力：优先用MMLU、GLUE等自动基准。若需验证特定场景的实用性（如法律文书生成）：结合专业领域基准（Bar Exam Bench）+ 人工评价。若需评估安全性与用户体验：采用HarmBench 自动测试 + 用户反馈众包（如 Chatbot Arena）。

2025-08-24 16:27:46 906

原创 Chatbot Arena

Chatbot Arena 是一个用于评估大型语言模型（LLMs）性能的开放平台，由加州大学伯克利分校 SkyLab 和 LMSYS 的研究者开发。

2025-08-24 16:26:31 356

原创 MMLU.

MMLU（Massive Multitask Language Understanding，大规模多任务语言理解）是一个广泛应用于评估大型语言模型能力的基准测试工具。

2025-08-24 16:25:16 286

原创 HumanEval

HumanEval 是由 OpenAI 于 2021 年在论文《Evaluating Large Language Models Trained on Code》中提出的，旨在为大规模语言模型（LLM）的代码生成性能提供标准化、可复现的评估依据。它聚焦于，通过衡量模型 “根据自然语言描述编写符合要求的代码” 的能力，成为学术界和工业界评估代码大模型的核心参考标准之一。

2025-08-24 16:23:30 877

原创 Encoder-Decoder 模式中 “答案逐字蹦出、无法一起输出” 的核心原因

大模型 “一个字一个字预测”，不是 “技术落后”，而是对语言本质（时序性、上下文依赖）的贴合，对概率模型原理（自回归、概率分布）的遵循，以及对工程可行性（计算效率、内存限制）的妥协。它用 “线性的生成步骤”，换来了 “可控的计算成本” 和 “高质量的语义连贯”，最终成为当前大模型文本生成的核心范式。为啥encoder decoder模式中一个对应问题一个对应答案但是答案这一块一个字一个字蹦出来，相当于mask机制问题始终能看到但是答案蹦出来一个字看一个不能一起输出答案麽。

2025-08-24 16:21:47 599

原创大模型（如 GPT、LLaMA 等）采用 “一个字一个字预测” 的核心逻辑

大模型 “一个字一个字预测”，不是 “技术落后”，而是对语言本质（时序性、上下文依赖）的贴合，对概率模型原理（自回归、概率分布）的遵循，以及对工程可行性（计算效率、内存限制）的妥协。它用 “线性的生成步骤”，换来了 “可控的计算成本” 和 “高质量的语义连贯”，最终成为当前大模型文本生成的核心范式。

2025-08-24 16:19:05 608

原创 BPE在nlp的使用

在自然语言处理（NLP）中，BPE（Byte Pair Encoding，字节对编码）是，其核心价值是解决 “基于词的分词” 的词汇外（OOV）问题和 “基于字符的分词” 的语义颗粒度不足问题，为语言模型提供更高效、更灵活的输入表示。

2025-08-24 14:42:26 529

原创 BPE（Byte Pair Encoding，字节对编码）

BPE（Byte Pair Encoding，字节对编码）是一种常用的子词分词算法，在自然语言处理（NLP）中用于将文本分割成更小的单位。它在基于词的分词和基于字符的分词之间提供了一个平衡，能够提升语言模型的效率和性能。

2025-08-24 14:41:38 131

原创 Stable Diffusion

Stable Diffusion 是 2022 年发布的深度学习文本到图像生成模型。它是一种潜在扩散模型，具有开源性，可在多数配备适度 GPU 的电脑上运行，能根据文本描述生成详细图像，也可用于图生图、内补绘制等任务。

2025-08-24 13:59:45 382

《软件实习1》实验任务书.docx

《软件实习1》实验任务书

2019-07-12

centos上mysql5.7配置.txt

2021-08-11

[2012年国赛MATLAB创新奖A题]桂林理工大学-葡萄酒的评价.doc

[2012年国赛MATLAB创新奖A题]桂林理工大学-葡萄酒的评价

2019-07-12

习题和实验指导解答（查找）9.pdf

习题和实验指导解答（查找）9 第 9 章习题、思考题、上机题解答

2019-07-12

【CentOS】在Centos7 下无图形界面安装 Oracle11g - 趴着睡大觉 - 博客园.html

anz

2021-08-11

[2007国赛D题特等奖]体能测试时间安排-崔国富-刘贺-郝鹏志.pdf

[2007国赛D题特等奖]体能测试时间安排-崔国富-刘贺-郝鹏志

2019-07-12

oracle安装.rar

2021-08-13

PLSQL Developer安装.pdf

PLSQL Developer安装

2021-08-11

2019-51MCM-Problem A (English).docx

2019-51MCM-Problem A (English)

2019-07-12

学生学籍管理系统.cpp

学生学籍管理系统

2019-07-12

JAVA环境配置流程

2018-10-06

实验五求二叉树叶子,高度及哈夫曼树.doc

实验五求二叉树叶子,高度及哈夫曼树

2019-07-12

有向图邻接表基本代码.rar

有向图邻接表基本代码

2019-07-12

03.国赛辅导：数学规划模型.vep

03.国赛辅导：数学规划模型03.国赛辅导：数学规划模型03.国赛辅导：数学规划模型03.国赛辅导：数学规划模型03.国赛辅导：数学规划模型03.国赛辅导：数学规划模型03.国赛辅导：数学规划模型03.国赛辅导：数学规划模型03.国赛辅导：数学规划模型03.国赛辅导：数学规划模型03.国赛辅导：数学规划模型03.国赛辅导：数学规划模型

2019-07-12

《软件实习1》实践教学大纲.docx

《软件实习1》实践教学大纲

2019-07-12

18数据结构学校本科课程考试试卷模板(A)-评分标准和参考答案.pdf

18数据结构学校本科课程考试试卷模板(A)-评分标准和参考答案

2019-07-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

《软件实习1》实验任务书.docx

centos上mysql5.7配置.txt

[2012年国赛MATLAB创新奖A题]桂林理工大学-葡萄酒的评价.doc

习题和实验指导解答（查找）9.pdf

【CentOS】在Centos7 下无图形界面安装 Oracle11g - 趴着睡大觉 - 博客园.html

[2007国赛D题特等奖]体能测试时间安排-崔国富-刘贺-郝鹏志.pdf

oracle安装.rar

PLSQL Developer安装.pdf

2019-51MCM-Problem A (English).docx

学生学籍管理系统.cpp

JAVA环境配置流程

实验五 求二叉树叶子,高度及哈夫曼树.doc

有向图邻接表基本代码.rar

03.国赛辅导：数学规划模型.vep

《软件实习1》实践教学大纲.docx

18数据结构学校本科课程考试试卷模板(A)-评分标准和参考答案.pdf

空空如也

实验五求二叉树叶子,高度及哈夫曼树.doc