- 博客(45)
- 收藏
- 关注
原创 深度强化学习DRL——价值学习
在深度强化学习DRL中,价值学习(Value-Based-Learning)和策略学习(Policy-Based-Learning)是两种核心方法,它们的区别在于学习的目标和输出形式。本次博客先介绍价值学习部分。
2025-06-24 16:37:21
995
原创 DRL中容易搞混的基础知识
episode和epoch经常混淆,搞不清?强化学习的奖励图为什么通常是起伏震荡的?奖励和回报是一回事吗?价值函数都分为哪几类?
2025-06-15 10:17:47
857
原创 一、小雅自带tutorial文件教程
关于ElegantRL库的使用如果出现以下报错,是因为,问题出在安装 box2d-py 时缺少 swig 工具。swig 是一个用于将 C/C++ 代码与 Python 集成的工具,而 box2d-py 依赖于它来编译其 C++ 扩展再重新运行pip install elegantrl在虚拟环境中安装 ipykernel,这是一个用于将虚拟环境添加到 Jupyter Kernel 的工具。–name=ElegantRL:指定 Kernel 的名称(内部标识)。–dis
2025-03-18 15:21:09
879
原创 时序差分算法
时序差分算法,无模型的强化学习中的两大经典算法:Sarsa 和 Q-learning,它们都是基于时序差分(temporal difference,TD)的强化学习算法
2024-12-19 21:13:36
1129
原创 【博弈强化学习】——UAV-BS 的联合功率分配和 3D 部署:基于博弈论的深度强化学习方法
博弈强化学习,功率分配问题首先被表述为具有定价机制的非合作博弈,以模仿无人机基站服务的用户之间的交互。 然后,基于深度强化学习(DRL)和博弈论的结合,将无人机基站的功率分配和3D部署转化为马尔可夫决策问题。 最后,提出了一种新颖的基于价格的近端策略优化(3PO)算法来探索最大化系统吞吐量的最优策略。
2024-09-28 11:23:41
305
原创 【博弈强化学习】——A Survey of Game Theory in Unmanned Aerial Vehicles Communications 无人机通信博弈论综述
A Survey of Game Theory in Unmanned Aerial Vehicles Communications无人机通信博弈论综述
2024-09-24 20:31:19
228
原创 机器学习——神经网络
神经网络是由具有适应性的简单单元组成的广泛并行互连的网络。神经网络中最基本的成分是神经元模型。以下图常见的“M-P神经元模型”为例,在这个模型中,神经元接收到来自n个其他神经元传递过来的输入信号,这些输入信号通过带权重的连接进行传递,神经元收到的总输入值将与神经元的阈值进行比较,然后通过激活函数处理以产生神经元的输出。
2024-05-01 10:17:16
1079
【博弈强化学习】-UAV-BS 的联合功率分配和 3D 部署:基于博弈论的深度强化学习方法
2024-09-28
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人