解忧AI铺-CSDN博客

原创深度强化学习DRL——策略学习

策略学习是通过求解一个优化问题，学出最优策略函数或者它的近似函数（比如策略网络）

2025-06-29 10:50:08 1079

原创深度强化学习DRL——价值学习

在深度强化学习DRL中，价值学习（Value-Based-Learning）和策略学习（Policy-Based-Learning）是两种核心方法，它们的区别在于学习的目标和输出形式。本次博客先介绍价值学习部分。

2025-06-24 16:37:21 995

原创 DRL中容易搞混的基础知识

episode和epoch经常混淆，搞不清？强化学习的奖励图为什么通常是起伏震荡的？奖励和回报是一回事吗？价值函数都分为哪几类？

2025-06-15 10:17:47 857

原创强化学习中，step、episode和epoch三者的区别和联系

强化学习中，step、episode和epoch三者的区别和联系

2025-05-13 12:39:51 939

关于ElegantRL库的使用如果出现以下报错，是因为，问题出在安装 box2d-py 时缺少 swig 工具。swig 是一个用于将 C/C++ 代码与 Python 集成的工具，而 box2d-py 依赖于它来编译其 C++ 扩展再重新运行pip install elegantrl在虚拟环境中安装 ipykernel，这是一个用于将虚拟环境添加到 Jupyter Kernel 的工具。–name=ElegantRL：指定 Kernel 的名称（内部标识）。–dis

2025-03-18 15:21:09 879

原创 DQN 算法

DQN代码实战

2025-01-02 09:37:49 1018

原创时序差分算法

时序差分算法,无模型的强化学习中的两大经典算法：Sarsa 和 Q-learning，它们都是基于时序差分（temporal difference，TD）的强化学习算法

2024-12-19 21:13:36 1129

原创动态规划算法

动态规划算法

2024-12-19 17:22:37 1074

原创马尔可夫决策过程

马尔可夫决策过程的基本过程和概念

2024-12-17 15:45:40 4035 3

原创深度学习——多层感知机的从零开始实现和简洁实现

多层感知机的从零开始实现和简洁实现

2024-11-25 16:56:10 954

原创多臂老虎机（强化学习中的探索与利用）

多臂老虎机可以看做无状态的强化学习

2024-11-25 15:35:56 1964

原创深度学习——多层感知机MLP（一、多层感知机介绍）

本文介绍了多层感知机MLP的架构是什么样的，以及说明了为什么要引入激活函数。

2024-11-09 20:48:47 2461

原创强化学习介绍

介绍强化学习是什么，与之前接触的有监督学习有什么区别

2024-11-05 16:43:19 1274

原创深度学习——线性神经网络（七、softmax回归的简洁实现）

softmax回归的简洁实现

2024-10-29 19:15:41 377

原创深度学习——线性神经网络（六、softmax回归的从零开始实现）

softmax回归的从零开始实现

2024-10-28 10:47:05 601

原创深度学习——线性神经网络（五、图像分类数据集——Fashion-MNIST数据集）

Fashion-MNIST数据集读取

2024-10-22 19:35:32 1409

原创深度学习——线性神经网络（四、softmax回归）

softmax回归

2024-10-21 12:49:35 994 1

原创【博弈强化学习】——不完全信息下基于MADRL的无人机群非合作博弈

【博弈强化学习】——不完全信息下基于MADRL的无人机群非合作博弈

2024-10-17 15:54:04 234

原创深度学习——线性神经网络（三、线性回归的简洁实现）

线性回归的简洁实现

2024-10-13 21:26:26 1217 2

原创深度学习——线性神经网络（二、线性回归的从零开始实现）

线性神经网络的从零实现

2024-10-09 13:14:06 1158

原创深度学习——线性神经网络（一、线性回归）

介绍神经网络的整个训练过程，包括定义简单的神经网络架构，数据处理，指定损失函数和如何训练模型。

2024-10-03 11:08:38 2000 3

原创【博弈强化学习】——UAV-BS 的联合功率分配和 3D 部署：基于博弈论的深度强化学习方法

博弈强化学习，功率分配问题首先被表述为具有定价机制的非合作博弈，以模仿无人机基站服务的用户之间的交互。然后，基于深度强化学习（DRL）和博弈论的结合，将无人机基站的功率分配和3D部署转化为马尔可夫决策问题。最后，提出了一种新颖的基于价格的近端策略优化（3PO）算法来探索最大化系统吞吐量的最优策略。

2024-09-28 11:23:41 305

原创【博弈强化学习】——A Survey of Game Theory in Unmanned Aerial Vehicles Communications 无人机通信博弈论综述

A Survey of Game Theory in Unmanned Aerial Vehicles Communications无人机通信博弈论综述

2024-09-24 20:31:19 228

原创【博弈强化学习】——多智能体博弈强化学习研究综述

多智能体博弈强化学习研究综述，附论文资源和思维导图

2024-09-23 16:24:35 327

原创深度学习——微积分求导，反向传播

深度学习中的微积分求导和反向传播梯度

2024-09-16 11:28:07 1325

原创深度学习——数据预处理，张量降维

深度学习张量类操作

2024-09-14 17:29:43 1730 2

原创深度学习——基础知识

关于张量的一些基本运算符

2024-09-12 15:50:44 1095

原创深度学习——pycharm配置远程服务器（蓝耘GPU智算云）

pycharm配置远程服务器

2024-09-09 18:05:40 2931 21

原创深度学习——引言

本文主要简单介绍一下深度学习的一些背景知识。

2024-09-05 17:06:54 1422

原创机器学习——集成学习

集成学习对于算法优化工作是很重要的

2024-08-30 09:59:57 1338

原创机器学习——贝叶斯分类器

贝叶斯分类一般都需要搭配拉普拉斯修正来使用

2024-08-28 15:21:28 1186 2

原创机器学习——支持向量机

支持向量机对于分类问题应用很多

2024-08-27 10:36:28 1262

原创 Excel——数据可视化

Excel中的数据可视化

2024-05-21 11:43:39 600 1

原创机器学习——神经网络

神经网络是由具有适应性的简单单元组成的广泛并行互连的网络。神经网络中最基本的成分是神经元模型。以下图常见的“M-P神经元模型”为例，在这个模型中，神经元接收到来自n个其他神经元传递过来的输入信号，这些输入信号通过带权重的连接进行传递，神经元收到的总输入值将与神经元的阈值进行比较，然后通过激活函数处理以产生神经元的输出。

2024-05-01 10:17:16 1079