论文总字数:25700字
摘 要
作为机器学习中的一大支柱,数理优化显得尤为重要。在过去,表现良好的优化方法在机器学习上的应用已经激励了大量的研究人员去解决更具挑战性的机器学习问题,并且设计出更加具有普适性的机器学习方法。主流的优化方法主要分为两大类:基于梯度信息的一阶优化方法和非梯度的零阶优化方法。
在深度神经网络的学习中,一阶优化方法是主流方法,但由于神经网络的参数优化问题复杂非凸,而一阶优化方法往往只适用于凸函数的优化,因而在神经网络的参数优化上存在难以逼近最优解的局限。与此同时,零阶优化方法基于采样进行优化,在复杂非凸问题上能够具有更好的全局最优逼近能力,然而由于其采样的本质,通常只适用于低维优化空间,难以用在深度神经网络参数优化等高维问题上。
本毕业设计围绕如何对两类算法进行有效结合开展,主要工作包括:1)对基于梯度信息的一阶优化方法和非梯度的零阶优化方法两大类算法进行研究;2)选用了其中的两个代表性算法进行了零阶和一阶优化算法的结合,提出了三种新的0/1阶混合优化算法;3)通过实验验证了在无噪音情况下0/1阶混合算法相较于单独的零阶或者一阶优化算法的优越性。
关键词:深度神经网络,混合优化算法,机器学习,优化问题
Abstract
As a major pillar of machine learning, mathematical optimization is important. The success of certain optimization methods for machine learning has inspired great numbers in various research communities to tackle even more challenging machine learning problems, and to design new methods that are more widely. There are two class of optimization methods usually used in the field of machine learning: first-order optimization methods and derivative-free optimization methods.
Large deep neural networks trained on massive data sets have led to major advances in machine learning performance. Current practice is to train networks using first-order optimization methods like gradient descent optimizers. However, first-order optimization methods are not unable to escape sub-optimal local minima when minimizing an empirical risk function. Besides, derivative-free optimization methods have a better performance in non-convex complex but low-dimensional optimization problems because they not rely on derivative information of the objective function.
The graduation project is about how to solve optimization problems by combining first-order methods with derivative-free methods in an effective way. The main work includes following: 1) This paper provides a review and commentary on the conventional optimization algorithms including first-order optimization methods and derivative-free optimization methods; 2) In this paper, we present three optimization methods by combining SGD with SRACOS in different ways; 3) Experiments on testing function show that the mixed algorithms have advantages in noise-free optimization problems.
KEY WORDS: Deep neural networks, mixed optimization algorithm, machine learning, optimization
目 录
摘 要 I
Abstract II
第一章 绪论 1
1.1 研究背景与意义 1
1.2 主要研究内容 2
第二章 主流优化方法介绍 3
2.1 基于梯度的一阶优化方法 3
2.2 非梯度的零阶优化方法 5
2.3 LMC算法和SGLD算法 11
第三章 0/1阶混合优化方法研究 13
3.1 算法的选择 13
3.2 结合形式的探索 14
3.2.1 直接结合法 14
3.2.2 部分结合法 16
3.2.3 动态结合法 17
第四章 实验 19
4.1 在测试函数上的实验效果 19
4.2 在CIRFA-10数据集上的实验效果 20
4.3 补充实验 22
第五章 总结 23
5.1 主要研究成果 23
5.2 未来方向与研究展望 23
致 谢 24
参考文献 25
绪论
研究背景与意义
优化问题体现在很多应用领域,人们在求解某一问题时,总是希望得到最好的结果,这种希望被形式化为 ( 为定义域),就是优化问题[1]。优化问题在不同的领域表现为不同的问题形式,可能是最佳化设计问题,最优控制问题,最优选址问题甚至最优膳食问题。而具体在机器学习领域,则体现在求解机器学习问题时最终的归约形式——求目标函数的最值问题,即基于当前已有的数据,选择解决当前问题的最优参数。比如在强化学习中,Richard S. Sutton等人提出的一种函数逼近方法——策略梯度方法[2],直接将策略进行参数化,然后使用神经网络来最大化累计奖赏——这一求解过程就是函数优化问题[3];在有监督学习中,构建神经网络,对经验误差最小化的过程也是函数优化问题。作为机器学习中的一大支柱,优化问题的解决显得尤为重要。在过去,表现良好的优化方法在机器学习上的应用已经激励了大量的研究人员去解决更具挑战性的机器学习问题,并且设计出更加具有普适性的机器学习方法[4]。
优化方法依据其是否使用导数信息,主要可以分为两大类,基于梯度的一阶优化方法和非梯度的零阶优化方法(由于二阶求导过程过于复杂,二阶优化方法在一般的神经网络问题中并不常见,不在此讨论范围之内)。基于梯度的一阶优化方法是一种非常常见的函数优化问题的求解方法,也是进行神经网络参数优化时常用的一种求解方法,当求解函数满足凸优化的条件时,运用函数的导数中的有用信息,采用梯度下降的思想,可以有效逼近函数的最优解[1]。在一阶优化方法中,尤其以随机梯度下降算法以及其衍生的相关算法由于其高效性受到广泛使用。但当求导的开销很大或者有很多噪音时,一阶优化算法将不再适用。特别需要注意的是,基于梯度的优化方法还会有着陷入局部最优解的麻烦。在很多优化任务中,求解函数没有线性、函数可凸或者连续这些良好的函数特性,在这种情况下,非梯度的零阶优化方法是另一种可选的逼近最优解的方法[5]。非梯度的零阶优化方法的出现早期是因为人们希望使用一些简单的、易于理解的方法去获得更好的解。随着应用的复杂性的提升,一阶优化方法对梯度信息的准确性要求逐渐提高,求解梯度信息需要花费大量计算资源,而基于采样的零阶优化方法则没有这方面的限制,体现出其良好的特性。零阶优化方法的发展经历了通用算法,随机本地搜索,分布算法的评估,交叉熵方法,贝叶斯优化方法,乐观优化方法等等。然而由于问题的多样性和算法本身的启发性,只有少部分零阶优化算法(SOO算法[6]、贝叶斯优化方法[7][8]、RACOS算法[9])有很好的理论基础。除了理论基础相对薄弱外,零阶优化方法还有着对高维参数空间无效、优化精度不够等诸多限制。
剩余内容已隐藏,请支付后下载全文,论文总字数:25700字
该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;