- 博客(671)
- 资源 (16)
- 收藏
- 关注
原创 gelu和relu的区别?
ReLU:是一种分段线性函数,定义为 \(f(x) = \max(0, x)\) 即当输入\(x \geq 0\)时输出x,当\(x < 0\)时输出 0。GELU。
2025-09-04 10:25:02
167
原创 自注意力的QK乘完后需要归一化吗?
具体来说,当计算完 Q 和 K 的矩阵乘积(得到相似度分数矩阵)后,会将结果除以一个缩放因子(通常是\(\sqrt{d_k}\),其中\(d_k\)是 Q 和 K 的维度),然后再应用 softmax 函数进行归一化。所以,QK 相乘后不仅需要归一化,而且通常会先进行缩放再用 softmax 归一化,这是自注意力机制中的标准操作。在自注意力机制中,Q(查询)和 K(键)的乘积通常需要进行归一化处理,这是非常重要的一步。
2025-09-04 10:24:14
184
原创 导数和梯度的区别?
维度导数 (Derivative)梯度 (Gradient)适用函数单变量函数:\(y = f(x)\)(仅 1 个自变量x)多变量函数:\(z = f(x_1, x_2, ..., x_n)\)(\(n≥2\)个自变量)数学本质标量 (Scalar):表示函数在某点的 “瞬时变化率”向量 (Vector):表示函数在某点 “变化最快的方向 + 变化率大小”几何意义函数曲线在该点的切线斜率函数曲面(或超曲面)在该点的 “最陡上升方向” 的向量符号表示。
2025-09-04 10:20:14
794
原创 详细描述Adam优化器(每一步!!)
同理,\(v_t\)也存在初始偏差(因\(v_0=0\)且\(β_2\)接近 1),需要修正: \(\hat{v}_t = \frac{v_t}{1 - β_2^t}\)最终的参数更新公式为: \(θ_t = θ_{t-1} - \frac{η}{\sqrt{\hat{v}_t} + ε} \cdot \hat{m}_t\),模拟物理中的 “动量”,用于平滑梯度方向,加速收敛: \(m_t = β_1 \cdot m_{t-1} + (1 - β_1) \cdot g_t\)一阶矩\(m_t\)是。
2025-09-04 10:19:17
324
原创 梯度下降的SGD是怎么做的?
首先明确待优化的模型(如线性回归、神经网络)和对应的损失函数。以线性回归模型预测值:\(\hat{y}_i = w \cdot x_i + b\)(w为权重,b为偏置,\(x_i\)为第i个样本的特征)损失函数(均方误差):\(L(w, b) = \frac{1}{2}(y_i - \hat{y}_i)^2\)(\(y_i\)为第i个样本的真实标签)SGD 的核心是 “随机单样本估计梯度,高效迭代更新参数”,它通过牺牲单次梯度的准确性换取了训练效率的大幅提升,是大规模机器学习的基石。
2025-09-04 10:18:03
810
原创 Kmeans的K如何选取
初步筛选:用手肘法 + CH 指数确定 K 的候选范围(如 K=2~5);精细评估:对候选 K 值计算轮廓系数 + DB 指数,筛选出指标最优的 2~3 个 K 值;业务落地:分析这 2~3 个 K 值的聚类结果,选择业务含义清晰、可执行的 K 值作为最终解。通过这种 “定量 + 定性” 的结合,才能选出真正有价值的 K 值,让 K-Means 聚类的结果服务于实际业务决策。
2025-09-03 16:46:17
608
原创 思维链和思维树的区别,思维树的每个节点是等可能的吗,会有无限的路径吗,思维树的结果是怎么得出来的
思维链是 “线性推理”,适用于步骤明确的问题;思维树是 “分支推理”,适用于需要多选项探索的复杂问题。思维树的节点并非等可能,由逻辑合理性和目标相关性决定权重。理论上路径可无限,但实际中会被目标、资源等约束限制。最终结果是通过 “生成 - 评估 - 修剪 - 收敛” 的流程,从多路径中筛选出的最优或合理解。
2025-09-03 15:56:35
429
原创 数据的实体识别数据格式是怎么样的
NER 数据格式的核心是 “文本 + 实体位置 + 实体类型” 的绑定,BIOES 序列标注和JSONL 跨度标注是最通用的两种格式 —— 前者适合常规 NER 任务,后者适合复杂实体和工程化场景。选择时需结合语言、工具、模型和数据量综合判断,必要时通过脚本进行格式转换,以适配不同环节的需求。
2025-09-03 15:55:00
379
原创 亿级数据要训练,你怎么把他们导入作训练
处理亿级数据训练导入的核心是 “避免全量加载,优化 IO 效率,分布式协同用 Parquet/TFRecord 等高效格式存储,结合分布式文件系统扩容;离线预处理 + 训练时动态增强,减少重复计算;基于tf.dataDataLoader实现流式加载,多进程 / 多节点并行读取;通过硬件升级(SSD)和监控调优,确保数据供应不成为训练瓶颈。这种方案既能适应单机有限内存,也能扩展到分布式集群,兼顾效率与稳定性。
2025-09-03 15:50:47
665
原创 self attention中,qk除以根号下dk这一步,可以理解为将q,k两个mean为0,var为1的矩阵的乘积qk的方差归一化,为什么q,k是mean为0,var为1的矩阵
在训练过程中,通过批量归一化(Batch Normalization)或层归一化(Layer Normalization)等技术,会进一步将输入特征 X 的分布标准化为均值 0、方差 1。通常采用随机初始化(如 Xavier 初始化),这种初始化方式会确保输出的 Q、K 矩阵具有近似为 0 的均值和 1 的方差。简单来说,Q 和 K 的标准化分布是模型设计(初始化 + 归一化)的结果,而除以。是对这种分布下内积结果的必要调整,两者共同保证了自注意力机制的稳定运行。
2025-09-03 15:49:31
108
原创 从sgd到adam的两种演进方向是什么,一种是adamw,具体做了什么,有什么改进
从 SGD 到 Adam 的两种演进方向分别是引入动量和自适应学习率。AdamW 是在 Adam 基础上进行改进的优化器,它通过将权重衰减从梯度更新中解耦,从而更有效地应用权重衰减。
2025-09-03 15:33:22
150
原创 定义图数据库(知识图谱)** 模式(Schema)** 的配置
哪些实体存在、实体间能有哪些关系、实体如何分类、实体 / 关系有哪些属性等。后续构建知识图谱时,会依据这个模式来组织数据(比如前面代码里处理的三元组数据),确保数据能按照统一、规范的结构存入图数据库,也让图谱的查询、分析等操作有清晰的结构依据。图数据库的模式就像 “蓝图”,
2025-09-02 15:47:32
222
原创 nl2sql是什么
NL2SQL 是 “自然语言处理” 与 “数据库技术” 融合的典型落地场景,其本质是消除 “人类语言” 与 “机器语言” 之间的鸿沟。随着大模型技术的发展,NL2SQL 的准确率和泛化能力持续提升,正逐步从 “辅助工具” 转变为 “人人可用的数据交互入口”,推动数据价值的普惠化。
2025-09-02 14:02:32
461
原创 neo4j
代码末尾的MATCH和RETURN语句用于可视化展示整个图谱:匹配所有 “节点 - 关系 - 节点” 的三元组;:在 Neo4j 的图形界面中,以 “节点(圆圈)+ 关系(连线)” 的形式显示所有数据。这个知识图谱清晰地描述了 “作家 - 图书 - 出版商 - 读者” 之间的核心业务关系,可用于后续的查询分析(比如 “查 Bob 读了哪些书”“哪些奇幻小说由英国出版商出版” 等),是图数据库(Neo4j)中典型的结构化数据建模案例。
2025-09-02 13:29:49
654
原创 基于知识图谱的电商行业使用场景
知识图谱通过构建实体(如商品、用户、品牌)、属性(如商品价格、用户年龄)及关系(如 “用户购买过商品”“商品属于某品牌”)的结构化网络,能深度挖掘电商数据的关联价值,在精准运营、用户体验优化、供应链管理等核心环节实现突破。以下从三大维度,详细拆解其具体使用场景。
2025-08-29 19:39:38
499
原创 电商 FAQ 知识问答库的使用场景
在电商行业中,FAQ(常见问题解答)知识问答库是一个极为重要的工具,它如同一个智能助手,在多个场景中发挥着关键作用,提升用户体验,助力商家高效运营。以下详细介绍其常见使用场景。
2025-08-29 19:38:01
588
原创 电商行业 FAQ(常见问题解答)
对用户:减少等待,提升 “自主服务” 的便捷性;对企业:降低客服人力成本、培训成本、沟通成本;对行业:推动服务标准化,减少因 “信息差” 导致的纠纷。
2025-08-29 19:37:33
564
原创 BPE训练
这段代码的核心目标是基于自定义 txt 数据训练一个 BPE 分词器导入依赖 → 2. 初始化 BPE 分词器(绑定预分词规则) → 3. 配置训练器(指定词表大小、特殊符号) → 4. 遍历文件夹收集 txt 训练数据 → 5. 训练分词器 → 6. 保存分词器和词表。训练后的分词器可用于 NLP 任务(如文本编码、模型预训练),词表文件则方便人工检查分词效果。
2025-08-29 15:23:05
682
原创 bpe对数据会做什么操作
让我们详细分析 BPE 算法如何处理这个语料库:原始语料库包含:BPE 的工作过程是迭代地合并最频繁的字符对,下面是详细步骤:所有词被拆分为单个字符,并添加结束标记:统计所有相邻字符对的出现次数:最频繁的是 (w, e) 出现了 6 次,所以合并它们为 "we"合并后结果:现在最频繁的是 (l, o) 和 (o, w) 各出现 5 次,假设选择 (l, o) 合并为 "lo"合并后:现在最频繁的是 (lo, w) 出现 5 次,合并为 "low"合并后:最终,经过足够迭代后,我们会得到这样的分词结果:BPE
2025-08-29 15:05:41
725
原创 BPE(Byte Pair Encoding)算法
BPE 的词表本质是 **“高频共现子词的集合”**,其构建过程完全依赖于对语料中相邻子词对的频率统计:频率越高的组合,越容易被合并为新子词并加入词表。因此,词表中每个子词的存在都对应着它在训练语料中的出现频率 —— 高频组合形成长子词,低频组合保持拆分状态。这也是为什么 BPE 能有效平衡词表大小和未登录词(OOV)问题:既用高频子词覆盖常见表达,又用字符级拆分处理罕见词。
2025-08-28 01:25:33
634
原创 MCP RAG(检索增强生成)
在 MCP(模型上下文协议)场景中,RAG(检索增强生成)与文本匹配有较多结合,主要体现在动态工具检索和上下文增强等方面。
2025-08-25 16:52:22
144
原创 “龘”(dá)这个生僻字在 BPE 中的处理方式
龘” 在 BPE 中的体现,本质是用字节级单元作为最终兜底:当生僻字无法通过汉字或子词拆分时,就拆解为最基础的编码字节,利用字节 token 的完备性(覆盖所有可能的字符编码)实现对任意字符的表示。这也是 BPE 能处理所有语言中极端罕见字符的核心逻辑。
2025-08-25 15:39:58
178
原创 在中文中,BPE 处理生僻词
中文 BPE 通过以汉字为基础单元,结合字节级兜底机制大部分生僻词可拆分为已知汉字(基础单元);极端罕见字符通过 UTF-8 字节拆分,用字节级 token 覆盖;本质上与英文 BPE 一致:不依赖完整词的存在,而是通过更小的、可复用的子单元(汉字 / 字节)来表示任意文本,包括生僻词。这也是为什么中文大模型能处理训练数据中未见过的生僻词 —— 它们被拆解为了模型 “认识” 的基础单元。
2025-08-25 15:39:06
316
原创 使用 BPE 后,即使遇到词表中没见过的词也能转换
使用 BPE 后,即使遇到词表中没见过的词也能转换,这是因为 BPE 将单词拆分成了子词单元,未登录词可由已知子词组合表示,原理主要基于子词分词机制和频率统计合并策略,具体如下:
2025-08-25 15:38:01
104
原创 BPE(Byte Pair Encoding,字节对编码)
BPE(Byte Pair Encoding,字节对编码)是一种子词级分词算法,核心是通过迭代合并高频字符或子词对生成高效词汇表,平衡词汇表大小与语义表达精度。
2025-08-25 15:37:17
193
原创 很多大语言模型数不对 “strawberry” 中 “r” 的数量,主要是由模型的技术原理和特性导致的
很多大语言模型数不对 “strawberry” 中 “r” 的数量,主要是由模型的技术原理和特性导致的,具体原因如下:
2025-08-25 15:36:36
146
原创 GPT - 4 和豆包幻觉
大语言模型产生幻觉,从数据层面看,训练数据若含有错误、偏见或重复信息,模型可能学习并记忆这些不准确内容;从模型层面来说,模型结构、解码算法及训练过程中的偏差等,均可能导致幻觉的产生。
2025-08-25 15:36:14
334
原创 GPT - 4 进行大语言模型(LLM)答案评价
事实性问题有明确、客观的答案(像历史事件发生时间、科学定理内容等 ),但 GPT - 4 本身基于训练数据生成输出,其训练数据可能存在过时、错误,或在处理事实性内容时,受模型推理逻辑等影响,难以精准判别答案是否完全符合客观事实,会导致对涉及事实类问题的 LLM 答案排序出现偏差,无法可靠区分事实性内容的对错优劣。这种评价方式有一定应用价值,但因事实性判断短板,使用时要结合场景,对于非事实性、侧重语言表达和逻辑的内容评价较合适,涉及事实类则需辅助人工核查等手段。
2025-08-24 16:29:01
393
原创 大型语言模型(LLM)的评价
LLM 的评价没有 “单一最优方法”,需根据评价目标(如 “测试知识广度” vs “验证医疗场景安全性”)、资源约束若需快速对比多个模型的通用能力:优先用MMLU、GLUE等自动基准。若需验证特定场景的实用性(如法律文书生成):结合专业领域基准(Bar Exam Bench)+ 人工评价。若需评估安全性与用户体验:采用HarmBench 自动测试 + 用户反馈众包(如 Chatbot Arena)。
2025-08-24 16:27:46
906
原创 Chatbot Arena
Chatbot Arena 是一个用于评估大型语言模型(LLMs)性能的开放平台,由加州大学伯克利分校 SkyLab 和 LMSYS 的研究者开发。
2025-08-24 16:26:31
356
原创 MMLU.
MMLU(Massive Multitask Language Understanding,大规模多任务语言理解)是一个广泛应用于评估大型语言模型能力的基准测试工具。
2025-08-24 16:25:16
286
原创 HumanEval
HumanEval 是由 OpenAI 于 2021 年在论文《Evaluating Large Language Models Trained on Code》中提出的,旨在为大规模语言模型(LLM)的代码生成性能提供标准化、可复现的评估依据。它聚焦于,通过衡量模型 “根据自然语言描述编写符合要求的代码” 的能力,成为学术界和工业界评估代码大模型的核心参考标准之一。
2025-08-24 16:23:30
877
原创 Encoder-Decoder 模式中 “答案逐字蹦出、无法一起输出” 的核心原因
大模型 “一个字一个字预测”,不是 “技术落后”,而是对语言本质(时序性、上下文依赖)的贴合,对概率模型原理(自回归、概率分布)的遵循,以及对工程可行性(计算效率、内存限制)的妥协。它用 “线性的生成步骤”,换来了 “可控的计算成本” 和 “高质量的语义连贯”,最终成为当前大模型文本生成的核心范式。为啥encoder decoder模式 中 一个对应问题 一个对应答案 但是答案这一块一个字一个字蹦出来, 相当于mask机制 问题始终能看到 但是答案 蹦出来一个字看一个 不能一起输出答案麽。
2025-08-24 16:21:47
599
原创 大模型(如 GPT、LLaMA 等)采用 “一个字一个字预测” 的核心逻辑
大模型 “一个字一个字预测”,不是 “技术落后”,而是对语言本质(时序性、上下文依赖)的贴合,对概率模型原理(自回归、概率分布)的遵循,以及对工程可行性(计算效率、内存限制)的妥协。它用 “线性的生成步骤”,换来了 “可控的计算成本” 和 “高质量的语义连贯”,最终成为当前大模型文本生成的核心范式。
2025-08-24 16:19:05
608
原创 BPE在nlp的使用
在自然语言处理(NLP)中,BPE(Byte Pair Encoding,字节对编码)是,其核心价值是解决 “基于词的分词” 的词汇外(OOV)问题和 “基于字符的分词” 的语义颗粒度不足问题,为语言模型提供更高效、更灵活的输入表示。
2025-08-24 14:42:26
529
原创 BPE(Byte Pair Encoding,字节对编码)
BPE(Byte Pair Encoding,字节对编码)是一种常用的子词分词算法,在自然语言处理(NLP)中用于将文本分割成更小的单位。它在基于词的分词和基于字符的分词之间提供了一个平衡,能够提升语言模型的效率和性能。
2025-08-24 14:41:38
131
原创 Stable Diffusion
Stable Diffusion 是 2022 年发布的深度学习文本到图像生成模型。它是一种潜在扩散模型,具有开源性,可在多数配备适度 GPU 的电脑上运行,能根据文本描述生成详细图像,也可用于图生图、内补绘制等任务。
2025-08-24 13:59:45
382
03.国赛辅导:数学规划模型.vep
2019-07-12
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人