田纳西大学|随机旅行时间的无人机与卡车联合运输问题：一种强化学习方法

强化学习2年前 (2023)发布智源社区

616 0 0

【标题】The flying sidekick traveling salesman problem with stochastic travel time: A Reinforcement Learning approach

【作者团队】Zeyu Liu, Xueping Li, Anahita Khojandi

【发表日期】2022.6.28

【论文链接】https://www.sciencedirect.com/sdfe/reader/pii/S1366554522002034/pdf

【推荐理由】作为一种新颖的城市配送方式，卡车-无人机协同作业越来越受欢迎，卡车走旅行推销员路线，无人机从卡车上起飞，将包裹运送到附近的客户。研究将此问题称为飞行伙伴旅行商问题（FSTSP），并提出了许多算法来解决它。然而，很少有研究考虑到路网行驶时间的随机性。本文将 FSTSP 扩展为随机旅行时间，并将问题表述为马尔可夫决策过程 (MDP)。该模型使用强化学习 (RL) 算法解决，包括深度 Q 网络 (DQN) 和 Advantage Actor-Critic (A2C) 算法，以克服维度灾难。使用被广泛接受为基准的人工生成数据集，实验表明强化学习算法在近似优化算法中表现良好。在具有随机行程时间的 FSTSP 上，强化学习算法获得灵活的策略，根据道路上不同的交通状况做出动态决策。