论文总字数:31048字
摘 要
近几年来,深度强化学习在解决各个领域的挑战性问题上取得了重大进展,基于端到端的深度强化学习也广泛应用在游戏方面,使用相关算法训练的模型在个别游戏中的表现能够超越人类玩家水平。因此,对于AI游戏策略生成的研究具有重要的价值和意义。
本文首先对解决游戏策略生成问题的各种强化学习算法进行了简单的介绍,然后详述了可以直接从原始图像输入中成功地学习到有效策略的DQN(Deep Q-Network)算法。在这些理论基础之上,本文基于DQN算法为Gym中的Skiing游戏生成了一个游戏决策模型,该模型可实时获取游戏画面作为输入,并可对滑雪者的行为动作进行智能决策。在实验中,本文首先对原始图像进行预处理,使用OpenCV对图像进行灰度处理,接着通过识别像素点获取不同标志物的位置,并根据当前图像特征重新设置有效的奖励值,其相对于游戏自带的奖励值设置方法能够有效地提高探索效率,从而使得滑雪者在训练过程中能够对环境的特征进行有效的判断,进而实现障碍物躲避以及滑雪路径探索的功能。最后本文在Gym游戏模拟器上对训练好的模型进行了评估,结果表明取得了不错的效果。
关键词:深度强化学习,DQN,神经网络,游戏策略
Abstract
In recent years, deep reinforcement learning has made significant progress in solving challenging problems in various fields. The deep reinforcement learning based on end-to-end is widely used in computer games as well. Models trained from deep reinforcement learning related algorithms can outperform human players in some specific games. Therefore, it attracts increasing amount of focus on the research of the generation of AI game strategy.
First, this thesis introduces various reinforcement learning algorithms that solve the problem of game strategy generation, and then elaborates the DQN (Deep Q-Network) algorithm which can successfully learn effective strategies directly from the original image input. On the basis of these theories, this thesis generates a game agent for the Skiing game in Gym based on the DQN algorithm. The agent takes the game screen as input in real time and makes intelligent decisions for skier’s action. In the experiment, this thesis firstly preprocesses the original image to gray-scale image by OpenCV. Then, the object positions are obtained by classifying the different pixel values, and then a new effective reward value is reset according to the current image feature, which can effectively improve the exploration efficiency so that the skier can avoid obstacles and effectively explore the path while comparing to the game’s default reward setting method. Finally, this thesis evaluates the trained model on the Gym game simulator, and the results demonstrate the efficiency and effectiveness of the DQN algorithm.
KEY WORDS: Deep Reinforcement Learning, DQN, Neural Network, Game Strategy
目 录
摘 要 I
Abstract II
第一章 绪论 1
1.1 研究背景和意义 1
1.2 国内外研究现状 1
1.2.1 强化学习的研究现状 1
1.2.2 游戏agent的研究现状 2
1.3 研究目标与内容 3
1.3.1 研究目标 3
1.3.2 研究内容 3
1.4 论文章节安排 3
第二章 相关知识介绍 5
2.1 Q-learning 5
2.2 卷积神经网络 6
2.3 DQN算法 7
2.3.1 Markov Decision Processes 7
2.3.2 DQN算法详述 9
2.4 实验工具和平台 11
2.4.1 TensorFlow 简介 11
2.4.2 Gym环境概述 11
2.5 本章小结 13
第三章 基于DQN的游戏策略生成 14
3.1 Skiing-v0游戏介绍 14
3.2 基于OpenCV的图像预处理 14
3.3 网络结构搭建 16
3.4 奖励设置机制 18
3.5 参数设置 20
3.6 本章小结 20
第四章 实验模型评估 21
4.1 实验环境 21
4.2 训练过程图示分析 21
4.3 实验结果及分析 22
4.3.1 模型评估 22
4.3.2 模型比较与分析 25
4.4 本章小结 27
第五章 总结与展望 28
5.1 工作总结 28
5.2 未来工作展望 28
参考文献 30
致 谢 32
绪论
研究背景和意义
人工智能(Artificial Intelligence, AI)在近几年一直是热点话题,获得反应敏捷并能够完全自主学习的智能体(agent)是该领域主要的研究目标之一。机器学习(Machine Learning, ML)作为AI的分支,它可以通过对大量数据的训练得出一个好的决策,以满足人类的某种需求。在生活中,我们可以感受到机器学习带来的体验,比如短视频平台根据用户个人喜好的内容推荐、购物APP里的自动推荐以及语音搜索等等。而强化学习(Reinforcement Learning, RL)作为ML的重要分支[1],它通过反复试验来进行自主探索,agent在与环境的交互过程中,不断地选择使得累积奖励最大的行为,在多次尝试中不断地修正算法,从而学习到最优策略。但是传统的强化学习只适用于解决一些低维(状态和动作空间都比较小)的问题。现今,深度学习的兴起对机器学习的许多领域都产生了重要影响[2],它通过模拟人脑机制的人工神经网络来提取高维状态(比如,图像、声音和文本等)的主要特征,这使得研究人员在解决维度灾难的问题上取得有效进展。
深度学习加速了RL的进展,由此产生了深度强化学习(Deep Reinforcement Learning, DRL)[3],它可以解决高维观测空间和连续动作空间的复杂问题。DRL算法被广泛应用在游戏策略的生成问题上,并取得有效进展。从简单的Atari游戏智能体能够在一些游戏中表现出超越人类玩家水平的效果,到由Google旗下的DeepMind公司开发的AlphaGo先后战胜多位人类顶尖围棋高手,再到今年的4月13日,OpenAI Five以2:0的战绩战胜了OG战队,该战队是第八届Dota2国际邀请赛的冠军。伴随着游戏任务变得越来越复杂,AI算法也将越来越强大,我们能够深深感受到DRL算法对于游戏AI行业发展的重要推动作用,这也极大地促进了人工智能领域的发展,同时我们也可以考虑将这种技术运用到社会的各个行业之中,来推动生产的发展和社会的进步。
国内外研究现状
强化学习的研究现状
强化学习研究的是一个与外界环境交互的agent,它通过不断地试错来学习到最优的策略,适用于解决自然科学、社会科学和工程等各个领域的顺序决策问题。强化学习和神经网络的结合有着比较长的历史。近年来,随着大数据、云计算的发展和算法技术、软件平台的成熟,人类在深度学习方面取得了令人振奋的成就,同时也见证了强化学习的复兴,尤其是深度神经网络与强化学习的结合。在调研的文献中,常用的实验平台有OpenAI Gym、MuJoCo、TORCS、RLLAB、DeepMind Lab、PySC2(StarCraft II)、baselines等。
剩余内容已隐藏,请支付后下载全文,论文总字数:31048字
该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;