论文总字数:26962字
摘 要
Abstract 4
第一章 绪论 5
1.1研究背景和意义 5
1.2 国内外研究现状 6
1.3 本文的主要工作 8
1.4 论文组织与结构 8
第二章 问题定义与分析 9
2.1 问题定义 9
2.2 问题分析 9
第三章 基于强化学习的追捕者路径规划 12
3.1 分析讨论基于强化学习的路径规划 12
3.1.1 对强化学习概念的理解 12
3.1.2 分析强化学习在追捕者路径规划中的应用 14
3.2 强化学习在追捕者路径规划中的具体建模及程序实现 15
第四章 基于仿真程序分析追捕者能力配置 21
4.1 仿真环境 21
4.2 实验说明 21
4.3 仿真实例说明 22
4.4 实验数据分析 24
4.4.1 实验数据汇总 24
4.4.2 固定力气大小情况下分析实验数据 25
4.4.3 固定速度情况下分析实验数据 25
4.4.4 固定视线范围情况下分析实验数据 26
4.4.5 求解最优解分析最佳的能力配置方案 27
第五章 总结及展望 30
参考文献 31
致谢 33
摘 要
多Agent系统中,多个追捕者合作追捕一个逃跑者的追逃问题一直是个热点问题。追捕过程受到许多因素影响,例如追捕者的路径规划策略和各项能力数据。已有相关研究中,追捕者的能力数据通常是固定值或者不受控制的变量。在一部分现实场景中,追捕者的能力数据可以在一定限制下自行配置。例如,警方采购机器人或无人机参与对犯罪分子的抓捕时,可以在一定预算的限制下配置追捕者的能力数据。为了优化这种情况下的追捕效果,本文研究追捕者能力数据可自行配置的情况下,多个追捕者合作追捕一个逃跑者时,如何将预算合理分配到追捕者的不同能力数据上,从而更好地完成追捕任务。
追捕者的路径规划策略是实现追捕过程的基础。所以,为了分析追捕者的能力配置方法,首先需要对路径规划策略进行建模分析并在程序中实现。本文运用强化学习算法为追捕者进行路径规划。在分析能力配置方法之前,对强化学习在追逃问题中的应用进行分析,并且在程序中实现。然后,基于仿真程序分析不同能力配置组合对追逃结果的影响。本文基于仿真数据拟合多项式,给每个能力固定一个价格系数,并利用牛顿法求解最优解,即固定价格。在此基础上进行能力分配并得出最佳的能力配置方案,使得追捕者可最快抓到目标从而优化追捕效率。
关键词:追捕问题;强化学习;牛顿法;价格系数;能力配置
Abstract
In multi-agent system, the problem of multiple pursuers cooperating to chase a runaway has always been a hot issue. The pursuit process is affected by many factors, such as the tracker's path planning strategy and capability data. In previous studies, the ability data of the pursuer are usually fixed values or uncontrolled variables. In some real-world scenarios, the capability data of the pursuer can be self-configurable under certain constraints. For example, when police procure robots or UAVs to participate in the capture of criminals, they can configure the capability data of the pursuers under certain budget constraints. In order to optimize the effect of pursuit in this case, this paper studies how to allocate the budget to the data of different abilities of the pursuer when multiple pursuers cooperate in pursuit of a runaway under the condition that the data of the ability of the pursuer can be self-configurable, so as to better accomplish the pursuit task.
The pursuit path planning strategy is the basis of the pursuit process. Therefore, in order to analyze the capability allocation method of the pursuer, first of all, it is necessary to model and analyze the path planning strategy and implement it in the program. In this paper, reinforcement learning algorithm is used to plan the path for the pursuer. Before analyzing the method of capability allocation, the application of reinforcement learning in the pursuit problem is analyzed and implemented in the program. Then, based on the simulation program, the influence of different capability configuration combinations on the result of the pursuit is analyzed. Based on the fitting polynomial of simulation data, this paper fixes a price coefficient for each capability, and uses Newton's method to solve the optimal solution, that is, fixed price. On this basis, the capability allocation is carried out and the optimal capability allocation scheme is obtained, which enables the pursuer to catch the target as quickly as possible and optimize the efficiency of the pursuit.
Key words: pursuit-evasion game; reinforcement learning; Newton method; price coefficient; capacity allocation
第一章 绪论
1.1研究背景和意义
近年来,因为人工智能领域的技术在飞跃发展进步,使得机器人的相关应用拓展进了更多领域。早期针对机器人方面的研究学习大多集中在对单个机器人的行为等方面[1]。而随着人们对于人工智能技术的要求不断提高,任务所处环境开始变得多样性,任务的复杂度也在与日俱增,这时候,单个机器人并不能够通过自己一个人的能力去完成规定的任务,就算是勉强完成了任务,但完成的成本比完成任务后的收益要高得多[2]。为了缩减成本或是更好完成任务的需求推动下,越来越多的专家们开始将目光集中到多机器人系统的发展领域,多智能体的相关问题开始在机器人研究领域大放光彩,并逐渐成为热点问题,针对多机器人的研究成果开始在各种领域得到应用且广受好评,例如医疗服务类、军事侦察方面或者资源勘探等,甚至踏步进入太空作业领域[3]。
剩余内容已隐藏,请支付后下载全文,论文总字数:26962字
该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;