自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 收藏
  • 关注

原创 PyTorch深度学习实践(二)

下图为pytorch中RNN的使用方式,cell()中的参数inputs为所有的x,hidden为h0;输出的out为h1-hN,hidden为hN。的维度是(input_size,1),ht的维度是(hidden_size,1),上图中的RNNCell是循环使用的,比较不好想象的可能就是从。多分类问题用softmax解决。

2025-03-15 15:17:11 380

原创 PyTorch深度学习实践(一)

首先定义前馈线性模型forward,然后定义了损失函数loss,接着用for循环穷举参数w,最后根据所得的数据绘制图像,可以观察到当w等于2时loss最小。前面的线性模型只有一个参数w,可以在合适的区间使用穷举的方法搜索参数w,但当模型有很多参数时,这种方法就不合适了。和线性回归相比多了sigmoid函数,损失函数也变成了BCE(交叉熵损失函数)。于是便引入了一个更好的方法——梯度下降算法来找到最优的参数w。这里的for循环是循环的训练次数。上图公式是梯度下降算法的核心公式。这个叫回归实际上是个分类问题。

2025-03-02 14:15:34 445

原创 GPT和BERT

BERT 模型可以作为公认的里程碑式的模型,是近年来优秀预训练语言模型的集大成者:参考了 ELMO 模型的双向编码思想、借鉴了 GPT 用 Transformer 作为特征提取器的思路、采用了 word2vec 所使用的 CBOW 方法。

2025-02-13 15:30:29 1109

原创 Transformer

Transformer在encoder阶段用了multi-head self-attention,在decoder阶段用了Masked multi-head self-attention,在encoder和decoder之间使用了attention连接。

2025-02-08 19:24:07 1194

原创 Attention和 Self Attention

(RNN模型与NLP应用)

2025-02-08 17:22:54 905

原创 RNN、LSTM和ELMo

笔记来源:Transformer、GPT、BERT,预训练语言模型的前世今生(目录) - B站-水论文的程序猿 - 博客园ShusenWang的个人空间-ShusenWang个人主页-哔哩哔哩视频(RNN模型与NLP应用)传统的神经网络无法获取时序信息,然而时序信息在自然语言处理任务中非常重要。​上图左边部分称作 RNN 的一个 timestep,在这个 timestep 中可以看到,在 푡 时刻,输入变量 푥푡,通过 RNN 的一个基础模块 A,输出变量 ℎ푡,而 푡 时刻的信息,将会传递到下一个时刻 푡

2025-02-07 17:48:24 1359

原创 词向量和Word2Vec 模型

(RNN模型与NLP应用(1/9):数据处理基础)

2025-02-07 15:25:20 965

原创 预训练语言模型(笔记)

预训练语言模型的发展并不是一蹴而就的,而是伴随着诸如词嵌入、序列到序列模型及 Attention 的发展而产生的。

2025-02-06 18:35:08 796

原创 Tensorflow—第五讲卷积神经网络

卷积实际上就是特征提取。本讲我们先了解学习卷积神经网络基础知识,再一步步地学习搭建卷积神经网络,最后会运用卷积神经网络对cifar10 数据集分类。在本讲的最后附上几个经典卷积神经网络:LeNet、AlexNet、VGGNet、InceptionNet和 ResNet。

2024-09-17 20:23:23 1863 1

原创 “Datawhale X 魔搭 AI夏令营”——AI生图学习笔记

基于8图故事,评估LoRA风格的美感度及连贯性。

2024-08-11 11:22:04 750

原创 Tensorflow—第四讲网络八股扩展

在神经网络中,权重和偏置通常具有特定的形状,这对应于它们在网络中的组织方式。:对图像进行阈值处理,将所有像素值小于200的设置为255(白色),大于等于200的设置为0(黑色)。在模型中,每个变量通常都有一个唯一的名字,这个名字有助于你识别模型中的不同参数。对图像数据的增强,就是对图像进行简单形变,用来应对因拍照角度不同引起的图片变形。将图像数组的像素值归一化到0到1的范围内,这是许多神经网络模型所期望的输入格式。:将其大小调整为28x28像素,因为训练的数据输入的图片为28x28像素。

2024-08-07 21:01:00 2046

原创 Tensorflow——第三讲神经网络八股

from_logits=False:神经网络末端如果使用了softmax函数,输出为概率分布而不是原始输出,from_logits就为false,否则为True。4.model.compile:在 model.compile()中配置训练方法,选择训练时使用的优化器、损失。2.train, test:指定输入网络的训练集和测试集,如指定训练集的输入 x_train 和标签。5.model.fit:在 model.fit()中执行训练过程,告知训练集和测试集的输入值和标签、二、搭建网络八股class。

2024-08-05 14:21:24 1071

原创 Tensorflow——第二讲神经网络的优化

拟造数据集X,Y_: y_ = x1 + x2 噪声:-0.05 ~ +0.05 拟合可以预测销量的函数。建模前,应预先采集的数据有:每日x1、x2和销量y_(即已知答案,最佳情况:产量=销量)可以看到自定义后两个参数都大于1,通过自定义实现了我们想要的预测函数往多了预测。在之前关于深度学习的文章中我已经写过为什么要使用激活函数(非线性函数)当激活函数是单调的,能保证单层网络的损失函数是凸函数。激活函数输出为有限值时,基于梯度的优化方法更稳定。预测酸奶日销量y,x1、x2是影响日销量的因素。

2024-08-01 17:19:52 679

原创 Tensorflow——第一讲神经网络的计算

这个系列的文章记录的是北京大学的Tensorflow课程的笔记,建议先听吴恩达的深度学习课程学习从底层实现神经网络,再听这个课程学习用框架实现神经网络。

2024-07-25 17:32:42 979 1

原创 吴恩达深度学习—机器学习(ML)策略(第三课第一周)

我们从一个启发性的例子开始讲,假设你正在调试你的猫分类器,经过一段时间的调整,你的系统达到了 90%准确率,但对你的应用程序来说还不够好。你可能有很多想法去改善你的系统,比如,你可能想我们去收集更多的训练数据吧。或者你会说,可能你的训练集的多样性还不够,你应该收集更多不同姿势的猫咪图片,或者更多样化的反例集。或者你想再用梯度下降训练算法,训练久一点。或者你想尝试用一个完全不同的优化算法,比如 Adam 优化算法。或者尝试使用规模更大或者更小的神经网络。或者你想试试 dropout 或者𝐿2正则化。

2024-07-23 13:36:05 726

原创 “Datawhale AI 夏令营”--学习解决机器翻译任务--笔记

整个学习过程还是很充实很有成就感的,从一无所知到能自己想方法改进代码,提高得分,一步一步的走下去,能有所收获,学到知识,就很成功了!

2024-07-19 14:11:45 962

原创 吴恩达深度学习—超 参 数 调 试 、 Batch 正 则 化 和 程 序 框 架(第二课第三周)

如图为要处理的参数 ,用红色框圈起来的学习率最为重要,黄色框圈起来的参数𝛽,隐藏单元,mini-batch 的大小是其次比较重要的,然后是紫色框圈起来的层数,学习衰减率。事实上,基本从不调试𝛽1,𝛽2和𝜀,默认其分别为 0.9,0.999 和10**−8。在早一代的机器学习算法中,常见的做法是在网格中取样点,如左图,然后系统的研究这些数值。这里我放置的是 5×5 的网格,实践证明,网格可以是5×5,也可多可少,但对于这个例子,你可以尝试这所有的 25 个点,然后选择哪个参数效果最好。

2024-06-19 21:52:53 998

原创 深度学习—优化算法学习笔记

本周主要学习了优化算法,这能让神经网络运行得更快。加油哦,(ง •_•)ง,自己去动手体验一下这些优化算法的效果吧!

2024-06-16 16:16:38 1051

原创 吴恩达深度学习第二门课第一周——深度学习的实践层面学习笔记

本周将学习如何有效运作神经网络,内容涉及超参数调优,如何构建数据,以及如何确保优化算法快速运行,从而使学习算法在合理时间内完成自我学习。

2024-06-16 11:02:33 2421

原创 用python实现识别图像中的文字

主要使用的是paddleocr库(一个基于PaddlePaddle的OCR(光学字符识别)库),安装这个库之前还需要安装其依赖项lmbd(是一个C库,用于存储键值对的数据库),而安装lmdb,又需要安装一个名为patch-ng。

2024-06-03 19:49:16 2261 2

原创 吴恩达深度学习第一门课第四周—深层神经网络学习笔记

目前为止我们学习了只有一个单独隐藏层的神经网络的正向传播和反向传播,还有逻辑回归,并且还学到了向量化,这在随机初始化权重时是很重要。本周所要做的是把这些理念集合起来,就可以执行你自己的深度神经网络。复习下前三周的课的内容:1.逻辑回归,结构如下图左边。一个隐藏层的神经网络,结构下图右边:注意,神经网络的层数是这么定义的:从左到右,由 0 开始定义,比如上边右图,𝑥1、𝑥2、𝑥3,这层是第 0 层,这层左边的隐藏层是第 1 层,由此类推。如下图左边是两个隐藏层。

2024-06-03 19:13:42 771

原创 吴恩达深度学习第一门课第二周—神经网络的编程基础学习笔记

在这个图中,横轴表示你的空间参数𝑤和𝑏,在实践中,𝑤可以是更高的维度,但是为了更好地绘图,定义𝑤和𝑏,都是单一实数,代价函数(成本函数)𝐽(𝑤, 𝑏)是在水平轴𝑤和𝑏上的曲面,因此曲面的高度就是𝐽(𝑤, 𝑏)在某一点的函数值。我们所做的就是找到使得代价函数(成本函数)𝐽(𝑤, 𝑏)函数值是最小值,对应的参数𝑤和𝑏。由于逻辑回归的代价函数(成本函数)𝐽(𝑤, 𝑏)特性,必须定义代价函数(成本函数)𝐽(𝑤, 𝑏)为凸函数。

2024-05-23 20:49:54 1786 1

原创 吴恩达深度学习第一门课第三周—浅层神经网络学习笔记

这一周主要学习的是含有一个隐藏层的神经网络 ,它的样子如下图:图中从左到右分别为 输入层,隐藏层,输出层。在上一周学习的逻辑回归中,通过直接计算𝑧得到结果𝑎。而这个神经网络中,需要重复计算两次𝑧和𝑎,(每一个圆圈都代表了两步运算,分别为计算z和𝑎),最后得到了最终的输出。同样在逻辑回归中学习了从后向前的计算用来计算导数𝑑𝑎、𝑑𝑧,在神经网络中也有从后向前的计算,看起来就像这样,最后会计算𝑑𝑎[2] 、𝑑𝑧[2],计算出来之后,然后计算计算𝑑𝑊[2]、𝑑𝑏[2] 等。

2024-05-22 21:29:30 1215 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除