- 博客(11)
- 收藏
- 关注
原创 强化学习实战:从理论到精通的四大经典任务
本文提供了强化学习实战的详细指南,重点介绍了Gym环境的CartPole任务。核心策略包括:1)理解环境状态和奖励机制;2)从小规模随机策略入手;3)记录分析学习过程;4)善用调试工具。文章详细分解了CartPole任务实施步骤:初始化环境后,先运行200回合随机策略,记录每回合奖励;随后尝试基于杆角度的简单规则策略对比效果。最后通过可视化分析两种策略的奖励分布、平均表现等指标,验证随机策略效果较差,为后续算法改进奠定基础。文中提供了完整的Python实现代码,包含环境交互、策略执行和数据分析模块。
2025-08-11 16:03:29
402
原创 强化学习基础奠基 核心概念掌握
本文系统介绍了强化学习(RL)的核心理论基础,重点解析了四个关键概念:1)Markov决策过程(MDP),作为RL的标准数学模型框架,包含状态、动作、转移概率、奖励函数和折扣因子等要素;2)贝尔曼方程与最优性原则,揭示了价值函数的递归特性,为动态规划算法提供理论基础;3)探索与利用的平衡策略,阐述了智能体在学习过程中面临的根本性两难困境及解决方案;4)价值函数(V函数与Q函数),作为评估状态和动作长期价值的核心工具。这些概念构成了强化学习的理论基石,对其理解是掌握各类RL算法的基础。
2025-08-11 10:14:53
270
原创 深度强化学习实战训练路线:从基础到Actor-Critic与PPO精通
摘要:本文提出一套深度强化学习实战训练路线,分为6个循序渐进的阶段:从强化学习基础(1-2周)到策略梯度方法(1周)、Actor-Critic精要(2周)、PPO实战(2-3周),最终到高级应用与部署优化。每个阶段包含核心概念学习和配套实战任务,如Gym环境探索、PPO调参、机器人控制等,强调实验驱动和渐进式挑战。路线采用甘特图规划学习进度,推荐《Reinforcement Learning: An Introduction》等经典资源,倡导"理解来自实践"的学习理念,建议从运行第一个G
2025-08-11 00:48:31
533
原创 Path planning with modified A star algorithm for a mobile robot 论文解读
本文系统评估了移动机器人路径规划中A算法的四种改进方法(Basic Theta、Phi*、RSR和JPS),通过网格地图实验对比了它们在计算效率、路径质量等方面的性能。研究结果表明:JPS算法在计算速度上优势显著(比传统A快50-100倍),而Theta系列算法能生成更优路径(缩短2.28%-4.4%)。针对不同应用场景,作者建议:实时性要求高时选择JPS,路径质量优先时采用Theta*,RSR可作为通用预处理方案。论文为工程实践提供了算法选择的量化依据,但未涉及动态环境适应性等扩展问题。这些改进方法可迁移
2025-08-10 21:54:25
281
原创 KDD 2024论文《Item-Difficulty-Aware Learning Path Recommendation》难度感知学习路径规划论文解读
关键实体定义LIc1cMLIc1...cM(学习项集LearningItem or concept,一个学习项对应多个实践项)PIe1eNPIe1...eN(实践项集PracticeItem or exercise,也可称为练习题)EpEe−EsEsup−EsEpEsup−EsEe−Es。
2025-08-10 21:51:15
149
原创 HGT:重塑大规模动态异构图的Transformer时代
摘要: HGT(Heterogeneous Graph Transformer)是首个支持Web级动态异构图训练的Transformer模型,通过五大创新突破传统局限: 抛弃元路径依赖,采用异构采样(HGSampling)自动捕获关系组合; 三元组定制QKV,为不同节点-边类型组合生成独立参数,实现精准关系建模; Web级可扩展性,通过参数共享和高效采样支持数十亿节点训练; 动态时序处理,引入相对时间编码(RTE)捕捉交互时效性; HGSampling策略,结合类型重要性和时间邻近度筛选高价值邻居。实验表明
2025-08-10 00:45:08
293
原创 图卷积的涅槃重生:谱方法与空域方法在GCN中的完美统一
本文系统梳理了图卷积神经网络(GNN)的两大技术路线:谱方法和空域方法。谱方法从频域视角出发,利用图拉普拉斯矩阵的特征分解进行信号处理,后经ChebNet优化计算复杂度;空域方法直接模拟CNN的邻域聚合,但面临度数泛化问题。二者最终在消息传递范式中融合,谱方法提供数学基础,空域方法贡献灵活架构。关键突破包括:ChebNet的多项式近似将复杂度从O(N³)降至O(K|E|),GraphSAGE通过共享参数和邻居采样解决度数限制问题。文章通过社交网络和分子图等实例,生动阐释了技术原理及演进过程,揭示了现代GNN
2025-08-07 22:42:01
678
原创 GNN基础学习:从核心思想到PYG实现简单GNN
图神经网络(GNN)通过邻接矩阵和节点特征矩阵实现图结构数据的高效处理。邻接矩阵A编码节点连接关系,通过添加自环($\hat{A}=A+I$)和归一化处理($D^{-1}\hat{A}H$)解决聚合时的信息丢失和度数偏差问题。GNN层公式$H^{(k)}=\sigma(D^{-1}\hat{A}H^{(k-1)}W^{(k)})$实现了节点特征的逐层传播与更新。实践层面,GNN遵循消息传递框架(消息生成、聚合、节点更新),可使用NetworkX进行图构建与可视化,并借助PyTorch Geometric实现
2025-08-07 14:24:17
332
原创 找不到模块 longling.ML
摘要:在导入longling.ML库时出现版本不符报错,通过强制重装指定版本1.3.35解决。使用命令:pip install --force-reinstall longling==1.3.35。该问题是由于库版本不匹配导致,重装对应版本后即可正常使用。(50字)
2025-06-30 09:50:17
137
原创 模块导入路径问题
运行论文代码时出现"ModuleNotFoundError: No module named 'EduSim'"错误,尽管文件结构中存在EduSim文件夹。解决方法是将EduSim模块所在路径添加到系统路径中,具体操作为:在代码中导入sys模块后,调用sys.path.append()方法添加完整路径'/ai/workpath/TZB/xht/DLPR-main'。这样Python就能正确识别和导入EduSim模块了。
2025-06-30 09:43:36
100
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人