
科学空间笔记
科学空间笔记
愚昧之山绝望之谷开悟之坡
人工智能智慧城市元宇宙pf,无无明亦无无明尽
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
科学空间bert4keras系列1-代码结构阅读
兼容代码后端函数、层次函数除了模型部分外其他的额外处理包括位置函数、预训练模型函数、优化函数、处理工具函数、数据预处理函数。原创 2022-11-25 19:49:27 · 235 阅读 · 0 评论 -
用开源的人工标注数据来增强RoFormer-Sim笔记
公式定义 思路想法 预训练的时候训练的任务越难,后面就越容易应对。就跟考试类似吗,学奥赛题,高考小菜一碟 吸收原来的有点,最直接的就是蒸馏嘛 经典,为何让模型去学习 没有中文,就翻译嘛 训练和预测阶段未必要保持一致,更加鲜明的语义理解 ...原创 2021-10-25 19:43:42 · 212 阅读 · 0 评论 -
突破瓶颈,打造更强大的Transformer
其中Q∈Rn×dk,K∈Rm×dk,V∈Rm×dv。而Multi-Head Attention,就是将Q,K,V分别用h个不同的投影矩阵投影h次,然后分别做h次Single-Head Attention,最后把结果拼接起来,即 多头注意力,没个头的参数是不一样的,提取不一样的特征 在实际使用中,Q,K,V一般具有相同的特征维度dk=dv=d(即hidden_size),比如BERT Base里边是768;h一般选择12、16、24等,比如BERT base里边是12;确定了d,h之后,通常的选择是让投影矩原创 2021-09-06 14:09:44 · 292 阅读 · 0 评论 -
《Attention is All You Need》浅读(简介+代码)笔记
RNN 递归 本质上就是数学,各种模型只是去拟合一个数学公式或者函数而已,既然是函数,就明确好输入和输出 CNN 窗口遍历 attention,没个词做注意力计算 本质理解,不同维度的序列转换 调节因子的作用 注意力只是一种方式,不一定是点乘 参数不共享然后结果拼接 数学公式 一步到位捕捉全局信息 多头借鉴CNN的多个卷积核的思想 局部注意力借鉴了卷积窗口的思想 本质上是相同的 代码实现除了遵循原文公式还要考虑效率问题,会有不一样的操作,tf不能并行,mask机制等 三次序列映射,K原创 2021-09-02 20:47:45 · 332 阅读 · 0 评论 -
情感分析传统规则和深度学习笔记
人的最简单的判断思维,模型都是模仿人的思维过程 字典的整理,除了纯积极消极,好需要添加,否定词汇和程度副词 赋予整个句子的整体权重,而不是判断到某个词 半监督学习的词典扩充,基于已经分类的积极和消极的语句里面,统计里面其中一方经常出现,另外一方没有出现的词语,统计出来后人为的初步审核即可扩充到词典库中去。 问题 1、为什么说‘变化较小则能够保证模型的稳定性’呢? 模型不需要处理单维度、大跨度的数据,而变成处理多维度、小跨度的数据,相当于风险分散,多方决策。 2、我没做过SVM之类的模型,原因是:将句.原创 2021-09-01 15:43:46 · 250 阅读 · 0 评论 -
1神经网络和深度学习笔记
本质是函数的拟合 分类模型本质上是在做拟合——模型其实就是一个函数(或者一簇函数),里边有一些待定的参数,根据已有的数据,确定损失函数(最常见的损失函数,就是误差平方和,不清楚的读者,可以回忆最小二乘法的过程。),然后优化损失函数到尽可能小,从而求出待定参数值。求出参数值之后,就可以用这个函数去进行一些预测。 函数存在的两个问题 1、函数的自变量是什么?2、这个函数是什么? 第一个 神经网络解决的是第二个问题:这个函数是什么。 多项式拟合的问题是在训练数据内拟合效果很好,可是测试效果不好,也就是容易出现过拟原创 2021-08-31 10:28:08 · 201 阅读 · 0 评论