自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 深度学习入门【完结】:【《动手学深度学习》之day6】从注意力机制开始01注意力机制 02Transformer

本文系统介绍了注意力机制及其在深度学习中的应用。首先从心理学角度解释注意力机制,将其分为非自主性和自主性提示两类。然后详细阐述了注意力汇聚、评分函数(如加性注意力和缩放点积注意力)等核心概念。接着探讨了如何将注意力机制应用于seq2seq模型,包括Bahdanau注意力的实现方法,并通过实验验证了注意力机制的效果提升。文章还介绍了自注意力和位置编码的重要作用,最后深入讲解了Transformer架构的核心组件:多头注意力、基于位置的前馈网络和层规范化。这些内容为理解现代注意力机制模型提供了全面的理论基础。

2025-07-25 21:28:26 1088

原创 图神经网络入门:从GNN开始01图卷积网络GCN节点分类 02图注意力网络GAT 03图自编码器GAE 04 门控图神经网络GGNN

本文系统介绍了图神经网络(GNN)的理论框架与应用实践。文章首先阐述了GNN的基本概念,重点讲解了图卷积网络(GCN)的核心算法和节点特征更新机制。随后详细介绍了PyTorch Geometric工具包的安装方法,并以Cora数据集为例演示了GCN节点分类任务的完整实现流程。文章还深入探讨了图注意力网络(GAT)、图自编码器(GAE)、图循环神经网络(GRNN)和门控图神经网络(GGNN)等进阶模型,对比分析了各模型的性能表现。最后总结了GNN在社交网络分析、推荐系统和生物信息学等领域的典型应用场景。

2025-07-25 02:13:48 966

原创 深度学习入门:【《动手学深度学习》之day5】从文本序列开始01自回归 02循环神经网络RNN 03门控循环单元GRU 04长短期记忆网络LSTM 05编码器解码器 06seq2seq

本文介绍了循环神经网络(RNN)及其在序列数据处理中的应用。主要内容包括:1) RNN通过隐状态存储序列信息,适用于时间序列预测;2) 介绍了自回归模型和隐变量自回归模型两种序列建模方法;3) 详细讲解了RNN的结构、训练过程和实现,包括文本预处理、困惑度指标和梯度裁剪技术;4) 介绍了RNN的改进模型GRU和LSTM,它们通过门控机制更好地处理长期依赖;5) 讨论了深度RNN和双向RNN的架构特点;6) 阐述了编码器-解码器框架和Seq2Seq模型在机器翻译中的应用;7) 比较了贪心搜索、穷举搜索和束搜索

2025-07-22 23:06:07 895

原创 深度学习入门:【迁移学习-微调】

微调是一种迁移学习方法,通过预训练模型提升目标任务的性能。具体步骤包括:1)在源数据集预训练模型;2)复制除输出层外的网络结构和参数;3)针对目标数据集添加新输出层并随机初始化;4)用较小学习率微调预训练层,较大学习率训练新输出层。实验表明,使用ImageNet预训练的ResNet18模型在微调后(输出层学习率×10)获得93.6%的测试准确率,显著优于从头训练的模型。微调方法能有效利用预训练模型的知识,实现更快的收敛和更高的精度。

2025-07-21 00:24:54 915

原创 深度学习入门:【《动手学深度学习》之day4】从神经网络基础开始01参数管理02自定义层03卷积神经网络CNN04经典模型

本文系统介绍了卷积神经网络(CNN)的核心概念与经典架构。首先阐述了参数管理方法,包括参数访问、初始化和自定义层实现。重点讲解了CNN的关键组件:卷积层(含互相关运算、填充步幅、多通道处理)、池化层和批量归一化层。随后详细解析了六种经典CNN模型:LeNet(CNN先驱)、AlexNet(采用ReLU和丢弃层)、VGG(使用重复卷积块)、NiN(全局平均池化替代全连接)、GoogLeNet(Inception块结构)和ResNet(引入残差连接)。

2025-07-17 16:22:12 1291

原创 深度学习入门:【《动手学深度学习》之day3】从简单的神经网络开始01多层感知机02模型选择03权重衰退04-05正则06数据稳定性07房价预测【解决one-hot伪编码内存炸掉的问题】08保存模型

摘要:本文系统介绍了多层感知机(MLP)及其相关技术。首先阐述了MLP的基本原理和激活函数(ReLU、sigmoid、tanh)的作用,分析了模型选择中的过拟合与欠拟合问题。接着详细讲解了两种正则化方法:权重衰退(L2正则化)和丢弃法(dropout),讨论了它们对模型泛化能力的影响。在数值稳定性方面,重点分析了梯度爆炸和梯度消失问题,并提出Xavier初始化等解决方案。最后以房价预测为例,实践了模型调优过程,对比了one-hot编码和嵌入层两种特征处理方法。文章还介绍了模型参数的保存与加载方法。

2025-07-11 16:41:37 864

原创 深度学习入门:【《动手学深度学习》之day2】从线性神经网络开始01线性回归+02softmax回归+03保存模型

本文介绍了机器学习中的线性回归和softmax回归模型,重点分析了它们的实现原理和应用场景。线性回归用于预测连续值,采用平方损失函数和随机梯度下降优化;softmax回归用于多分类问题,通过交叉熵损失函数和softmax函数实现概率预测。文章还详细讲解了模型参数保存的三种方法:完整模型保存、仅保存参数、保存训练状态(含优化器参数),并讨论了相关注意事项。最后通过Fashion-MNIST数据集展示了softmax回归的实际应用,比较了CPU和GPU训练效果,为后续深度学习研究奠定了基础。

2025-07-06 23:33:20 1176

原创 深度学习入门:【基本概念】

本文介绍了机器学习的基本概念和关键组件。主要内容包括:1. 基本术语:参数、模型、模型族、学习算法的定义;2. 机器学习四大要素:数据、模型、目标函数和优化算法;3. 数据处理:特征向量、张量运算、广播机制和预处理方法;4. 数学基础:线性代数、矩阵计算(梯度、微分、自动微分)和概率抽样;5. 优化过程:梯度下降算法、训练步骤和模型评估方法。文章强调数据质量的重要性("垃圾进,垃圾出"),并指出深度学习的优势在于处理不同长度的数据。

2025-07-06 16:51:17 1135

原创 深度学习入门:【《动手学深度学习》之day1】从常见的机器学习应用及问题开始01

本文系统介绍了机器学习的基本概念、主要模型和发展历程。首先从唤醒词识别等生活实例切入,阐释了机器学习"用数据编程"的核心思想。随后详细讲解了监督学习(回归、分类、推荐系统等)和无监督学习(聚类、主成分分析等)两大类模型,以及强化学习的交互特点。文章还追溯了机器学习从18世纪统计学萌芽到21世纪深度学习的演进过程,重点分析了大数据时代深度学习复兴的关键技术突破(如注意力机制、生成对抗网络等)。最后总结了深度学习的端到端训练、自动特征工程等优势,指出其统一解决各类问题的潜力。全文以科普性语言

2025-07-05 20:13:18 1124

原创 深度学习环境安装MACOS完整版(python版本过高不兼容d2l的问题解决)

本文介绍了在Mac电脑上安装Miniconda并配置PyTorch GPU开发环境的详细步骤:1)下载对应架构的Miniconda安装包;2)安装并初始化Miniconda;3)创建指定Python 3.9版本的d2l环境;4)安装PyTorch GPU版;5)验证GPU加速效果。文章还提供了三种验证方法,包括观察GPU使用情况、编写加速代码以及性能测试对比。最后指出在Mac M3芯片上测试显示GPU运算速度比CPU快3倍,成功搭建了适用于深度学习的开发环境。

2025-07-05 19:47:59 1014

原创 深度学习入门~李沐【《动手学深度学习》第二版】

在深度学习和计算机视觉领域,AlexNet、VGG、ResNet、Yolo和SSD都是极为重要的模型,各自代表了图像识别和对象检测领域的重要进展。为了深入理解这些模型的工作原理和应用,手写代码并亲自进行数据标记和训练是一个非常有效的学习方法。无论选择哪种模型,关键是通过实际操作来深入理解模型的工作原理。这种实践经验对于深入理解深度学习的原理和发展是非常宝贵的。Python 除了语法简洁外,其生态系统中包含了大量用于数据处理和科学计算的库,这些是进行深度学习研究和应用开发的必备工具。博主说,深度学习入门,

2025-07-05 07:57:19 1045

原创 散点图矩阵+多变量关系可视化​sns.pairplot()​

本文介绍了散点图矩阵在数据可视化中的应用,重点阐述了使用seaborn.pairplot()方法进行探索性数据分析(EDA)的实践方案。文章以iris数据集为例,详细展示了从数据获取到可视化分析的完整流程,包括数据下载、目录创建、数据读取、散点图矩阵绘制(支持分类变量着色和多种标记样式)以及EPS格式保存等关键步骤。特别强调了散点图矩阵相较于单一统计指标的优势,能够直观展示多变量间的两两关系。最后提供了可视化优化的参考资源,包括Python代码模板和包含3174类colormap的配色工具palettabl

2025-07-04 20:32:16 222

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除