xiao-chong-CSDN博客

原创 PyTorch深度学习实践（二）

下图为pytorch中RNN的使用方式，cell（）中的参数inputs为所有的x，hidden为h0；输出的out为h1-hN，hidden为hN。的维度是（input_size,1),ht的维度是（hidden_size,1),上图中的RNNCell是循环使用的，比较不好想象的可能就是从。多分类问题用softmax解决。

2025-03-15 15:17:11 380

首先定义前馈线性模型forward，然后定义了损失函数loss，接着用for循环穷举参数w，最后根据所得的数据绘制图像，可以观察到当w等于2时loss最小。前面的线性模型只有一个参数w，可以在合适的区间使用穷举的方法搜索参数w，但当模型有很多参数时，这种方法就不合适了。和线性回归相比多了sigmoid函数，损失函数也变成了BCE（交叉熵损失函数）。于是便引入了一个更好的方法——梯度下降算法来找到最优的参数w。这里的for循环是循环的训练次数。上图公式是梯度下降算法的核心公式。这个叫回归实际上是个分类问题。

2025-03-02 14:15:34 445

原创 GPT和BERT

BERT 模型可以作为公认的里程碑式的模型，是近年来优秀预训练语言模型的集大成者：参考了 ELMO 模型的双向编码思想、借鉴了 GPT 用 Transformer 作为特征提取器的思路、采用了 word2vec 所使用的 CBOW 方法。

2025-02-13 15:30:29 1109

原创 Transformer

Transformer在encoder阶段用了multi-head self-attention，在decoder阶段用了Masked multi-head self-attention，在encoder和decoder之间使用了attention连接。

2025-02-08 19:24:07 1194

原创 Attention和 Self Attention

（RNN模型与NLP应用）

2025-02-08 17:22:54 905

原创 RNN、LSTM和ELMo

笔记来源：Transformer、GPT、BERT，预训练语言模型的前世今生（目录） - B站-水论文的程序猿 - 博客园ShusenWang的个人空间-ShusenWang个人主页-哔哩哔哩视频（RNN模型与NLP应用）传统的神经网络无法获取时序信息，然而时序信息在自然语言处理任务中非常重要。上图左边部分称作 RNN 的一个 timestep，在这个 timestep 中可以看到，在 푡 时刻，输入变量 푥푡，通过 RNN 的一个基础模块 A，输出变量 ℎ푡，而 푡 时刻的信息，将会传递到下一个时刻 푡

2025-02-07 17:48:24 1359

原创词向量和Word2Vec 模型

（RNN模型与NLP应用(1/9)：数据处理基础）

2025-02-07 15:25:20 965

原创预训练语言模型（笔记）

预训练语言模型的发展并不是一蹴而就的，而是伴随着诸如词嵌入、序列到序列模型及 Attention 的发展而产生的。

2025-02-06 18:35:08 796

原创 Tensorflow—第五讲卷积神经网络

卷积实际上就是特征提取。本讲我们先了解学习卷积神经网络基础知识，再一步步地学习搭建卷积神经网络，最后会运用卷积神经网络对cifar10 数据集分类。在本讲的最后附上几个经典卷积神经网络：LeNet、AlexNet、VGGNet、InceptionNet和 ResNet。

2024-09-17 20:23:23 1863 1

原创 “Datawhale X 魔搭 AI夏令营”——AI生图学习笔记

基于8图故事，评估LoRA风格的美感度及连贯性。

2024-08-11 11:22:04 750

原创 Tensorflow—第四讲网络八股扩展

在神经网络中，权重和偏置通常具有特定的形状，这对应于它们在网络中的组织方式。：对图像进行阈值处理，将所有像素值小于200的设置为255（白色），大于等于200的设置为0（黑色）。在模型中，每个变量通常都有一个唯一的名字，这个名字有助于你识别模型中的不同参数。对图像数据的增强，就是对图像进行简单形变，用来应对因拍照角度不同引起的图片变形。将图像数组的像素值归一化到0到1的范围内，这是许多神经网络模型所期望的输入格式。：将其大小调整为28x28像素，因为训练的数据输入的图片为28x28像素。

2024-08-07 21:01:00 2046

原创 Tensorflow——第三讲神经网络八股

from_logits=False：神经网络末端如果使用了softmax函数，输出为概率分布而不是原始输出，from_logits就为false，否则为True。4.model.compile：在 model.compile()中配置训练方法，选择训练时使用的优化器、损失。2.train, test：指定输入网络的训练集和测试集，如指定训练集的输入 x_train 和标签。5.model.fit：在 model.fit()中执行训练过程，告知训练集和测试集的输入值和标签、二、搭建网络八股class。

2024-08-05 14:21:24 1071

原创 Tensorflow——第二讲神经网络的优化

拟造数据集X,Y_： y_ = x1 + x2 噪声：-0.05 ~ +0.05 拟合可以预测销量的函数。建模前，应预先采集的数据有：每日x1、x2和销量y_（即已知答案，最佳情况：产量=销量）可以看到自定义后两个参数都大于1，通过自定义实现了我们想要的预测函数往多了预测。在之前关于深度学习的文章中我已经写过为什么要使用激活函数（非线性函数）当激活函数是单调的，能保证单层网络的损失函数是凸函数。激活函数输出为有限值时，基于梯度的优化方法更稳定。预测酸奶日销量y，x1、x2是影响日销量的因素。

2024-08-01 17:19:52 679

原创 Tensorflow——第一讲神经网络的计算

这个系列的文章记录的是北京大学的Tensorflow课程的笔记，建议先听吴恩达的深度学习课程学习从底层实现神经网络，再听这个课程学习用框架实现神经网络。

2024-07-25 17:32:42 979 1

原创吴恩达深度学习—机器学习（ML）策略（第三课第一周）

我们从一个启发性的例子开始讲，假设你正在调试你的猫分类器，经过一段时间的调整，你的系统达到了 90%准确率，但对你的应用程序来说还不够好。你可能有很多想法去改善你的系统，比如，你可能想我们去收集更多的训练数据吧。或者你会说，可能你的训练集的多样性还不够，你应该收集更多不同姿势的猫咪图片，或者更多样化的反例集。或者你想再用梯度下降训练算法，训练久一点。或者你想尝试用一个完全不同的优化算法，比如 Adam 优化算法。或者尝试使用规模更大或者更小的神经网络。或者你想试试 dropout 或者𝐿2正则化。

2024-07-23 13:36:05 726

zxt_tong的博客

原创 PyTorch深度学习实践（二）

原创 PyTorch深度学习实践（一）

原创 GPT和BERT

原创 Transformer

原创 Attention和 Self Attention

原创 RNN、LSTM和ELMo

原创词向量和Word2Vec 模型

原创预训练语言模型（笔记）

原创 Tensorflow—第五讲卷积神经网络

原创 “Datawhale X 魔搭 AI夏令营”——AI生图学习笔记

原创 Tensorflow—第四讲网络八股扩展

原创 Tensorflow——第三讲神经网络八股

原创 Tensorflow——第二讲神经网络的优化

原创 Tensorflow——第一讲神经网络的计算

原创吴恩达深度学习—机器学习（ML）策略（第三课第一周）

原创 “Datawhale AI 夏令营”--学习解决机器翻译任务--笔记

原创吴恩达深度学习—超参数调试、 Batch 正则化和程序框架（第二课第三周）

原创深度学习—优化算法学习笔记

原创吴恩达深度学习第二门课第一周——深度学习的实践层面学习笔记

原创用python实现识别图像中的文字

原创吴恩达深度学习第一门课第四周—深层神经网络学习笔记

原创吴恩达深度学习第一门课第二周—神经网络的编程基础学习笔记

原创吴恩达深度学习第一门课第三周—浅层神经网络学习笔记

空空如也

空空如也