文章目录
Abstract
介绍了一种名为 Neural k-Opt(NeuOpt)的新型学习搜索(L2S)求解器,用于解决路径问题。它学习执行基于定制的动作分解方法和定制的循环双流(Recurrent Dual-Stream)解码器的灵活 k-opt 交换。
作为一项开创性的工作,我们绕过了纯可行性掩码方案,实现了对可行和不可行区域的自主探索,我们提出了一种名为 Guided Infeasible Region Exploration(GIRE)的方案。GIRE 通过补充可行性相关特征并利用奖励塑造来增强 NeuOpt 策略网络,使其更有效地指导强化学习。
此外,我们为 NeuOpt 配备了动态数据增强(D2A),以便在推理过程中进行更多样化的搜索。在旅行商问题(TSP)和有容量限制的车辆路径问题(CVRP)上的广泛实验表明,我们的 NeuOpt 不仅显著超越了现有的(基于掩码的)L2S 求解器,而且还展示了其优越性,超越了学习构建(L2C)和学习预测(L2P)求解器。值得注意的是,我们提供了新的视角,展示了神经求解器如何处理 VRP 约束。我们的代码可在 https://github.com/yining043/NeuOpt 上找到。
1 Introduction
车辆路径问题(VRPs)在各种实际应用中非常普遍,它们提出了需要高效搜索算法解决的 NP-hard