论文总字数:24926字
摘 要
题目:大规模群体智能机器人攻击对抗策略学习研究
学号:09015234
姓名:陈雪俺
指导老师:蒋嶷川
机器人技术的快速发展,使得单个机器人能够完成复杂的任务,比如跨越障碍。但是,在一些需要团队协作的任务中,强大的自主群体机器人可能会带来最佳的结果。因此,机器人控制开始从单机器人研究转向多机器人系统的研究。对于大规模群体机器人对抗问题的研究模拟了现实中两军对战的场景。该研究旨在改进群体机器人的控制策略,使得群体机器人能够通过合作来赢得战斗。
强化学习与机器人的结合,使得智能体机器人能够在陌生的环境工作,在与环境交互中获得知识,通过改进其控制算法,不断提高机器人的工作性能。如今的多智能体强化学习算法研究已经取得了很大进展,但是,这些算法主要是针对少量智能体系统的,当智能体的数量大幅增加时,由于智能体交互的指数级增加,控制算法变得复杂。
本文根据平均场强化学习理论,设计了一种基于大规模智能机器人攻防策略的算法,
其利用智能体周围其他智能体的动作集作为智能体的状态,基于Q-learning的基础上实现了算法。最后利用MAgent平台进行了算法的大规模仿真和测试。
关键词:强化学习,多机器人系统,攻防问题
Abstract
Title: Research on Large-scale Intelligence Robots Attack Strategy
Student ID:09015234
Name:Xuean Chen
Instructor:Yichuan Jiang
The rapid development of the robotic technology has made single robot qualified to complete complex missions, e.g., striding over barriers. However, in team missions, powerful independent robots may lead in optimal results. Therefore, the robot control begins to shift from single robot research to multi-robot Systematic research. The research on the large-scale robot confrontation problem simulates the reality of the battle between the two armies. The research aims to improve the control strategy of the robot group, so that the group robots can win combats through cooperation.
The combination of reinforcement learning and robots enables intelligent robots to work in unfamiliar environments, gain knowledge in interaction with the environment, improve control algorithms, and continuously improve the performance of robots. Nowadays, the multi-agent reinforcement learning algorithm has made great progress. However, these algorithms are mainly for a small number of agent systems. When the number of agents increases greatly, the control algorithm becomes complicated due to the exponential increase of the agent interaction. . Based on the average field reinforcement learning theory, this paper designs an algorithm based on the attack strategy of large-scale intelligent robots. It uses the action set of other agents around the agent as the state of the agent, and implements the algorithm based on Q-learning. Finally, the large-scale simulation and testing of the algorithm was carried out using the MAgent platform.
KEY WORDS: reinforcement learning,Multi-robot system,battle problem
目 录
摘 要 I
Abstract II
第一章 绪论 1
1.1 引言 1
1.2 研究现状 1
1.2.1 多机器人系统研究现状 1
1.2.2 多智能体强化学习研究现状 3
1.2.3 多智能体对抗策略研究现状 5
1.3 研究目的和意义 6
1.4 主要工作内容 6
第二章 技术基础 8
2.1 主要工作内容 8
2.1.1 强化学习原理 8
2.1.2 TD算法及其改进算法 9
2.1.3 DQN算法 11
2.2 MAgent仿真平台 11
2.2.1 环境 12
2.2.2 智能体 12
2.2.3 动作和奖励函数 13
第三章 大规模群体智能机器人攻击对抗策略学习研究 14
3.1 算法设计 14
3.1.1 环境建模 14
3.1.2 机器人建模 15
3.2 算法设计 15
3.2.1 平均场思想 15
3.2.2 算法设计 16
3.3 仿真与测试 17
第四章 总结与展望 20
参考文献 21
致谢 23
- 绪论
- 引言
近年来,随着人工智能技术和计算机控制技术的发展,特别是深度学习和强化学习的结合,使得机器人控制技术得到了迅速的发展,其应用领域也得到了不断的扩展。机器人领域的不断进步,使得目前人类的部分工作可以被机器人代替,比如工厂中的重复性工作,危险环境中的营救、探索工作,战场上的侦查、排雷工作,以及今年来发展迅速的快递行业的分发工作等等。在机器人控制技术发展的初期,一般是建立一个单独的自动机器人去实现给定的任务,随着控制技术的发展以及应用领域的扩展,工作任务逐渐变得复杂,这时需要多个机器人间进行合作来共同解决问题,因此,机器人系统的研究从单机器人逐渐转为多机器人的研究。
在多机器人系统中,要求机器人能够通过控制算法相互协作,完成特定的任务。多机器人系统中机器人的运动与自然界中的群集运动相似,需要对群集运动建模并且根据不同的模型进行控制策略的选择。其旨在从整体的角度去研究多个个体机器人之间的协作机制和控制算法,其中,两军攻防策略问题主要研究两军作战时,各方的机器人如何分工、协调各个机器人的动作才能得到最优的作战策略。但是以往的对抗策略研究主要是针对机器人数量较少的情况,而在大规模的群体机器人条件下,其控制策略空间大大增加,由于维度的困难和群体内机器人交互的指数增长,通过强化学习策略控制机器人行为变得困难,需要提出新的解决方法。
剩余内容已隐藏,请支付后下载全文,论文总字数:24926字
该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;