基于机器学习的股票价格指数预测研究

 2022-06-30 10:06

论文总字数:28700字

摘 要

股票市场作为现代社会融资融券的主要场所,在社会发展过程起到至关重要的作用。预测股票市场的走势已经成为当下研究学者们关注的热点问题,传统的分析方法在发展迅猛的机器学习算法面前被淘汰,机器学习有着传统算法不可企及的优势,机器学习算法可以避免人为主观因素的影响,而且适合解决复杂的非线性问题。本文对股票价格指数进行预测,基于股指的历史信息,建立了随机森林回归模型。本文先介绍了股指预测的研究背景及意义,并对目前的研究现状进行了介绍。其次介绍了随机森林算法的基本原理,为实证分析打下基础。在实证中,初步选取尽可能多的特征变量,对变量进行相关性分析,并使用随机森林算法对沪深300指数进行了预测并分析。对比传统线性回归的方法,随机森林回归的预测效果更好,同时对比输入数据样本的大小,训练集样本数量大的更有优势。由于特征变量过多容易出现过拟合问题,故本文还研究了主成分分析法对随机森林的影响,通过对特征变量进行了主成分分析,再对股指进行预测并分析。

关键词:随机森林算法,主成分分析,股指预测

Abstract

The stock market, as the main place for financing and securities lending in modern society, plays a crucial role in the process of social development. Predicting the trend of the stock market has become a hot issue for current research scholars. The traditional analysis method is eliminated in the face of rapid development of machine learning algorithms. Machine learning has advantages that traditional algorithms cannot reach. It can avoid the influence of subjective factors and is suitable for solving complex nonlinear problems. In this paper, a random forest model was established based on the historical information of the stock index. The research background and significance of the stock index prediction and current research status have been introduced one after another. The basic principles of the random forest algorithm lay the foundation for empirical analysis. In the empirical study, after choosing characteristic variables, the correlation analysis was performed on the variable and the CSI 300 index is predicted and analyzed using the random forest algorithm. Compared with the traditional linear regression method, the random forest regression prediction has better effect. Compared with the small sample, the large sample has a greater advantage. Because too many characteristic variables are prone to overfitting problems, the influence of principal component analysis method on random forests is also studied. Through the principal component analysis of characteristic variables, the stock index is predicted and analyzed.

KEY WORDS: Random Forest Algorithm, Principal component analysis, Stock Index Prediction

目录

摘要 I

Abstract II

第一章 绪论 1

1.1 研究背景及意义 1

1.2 文献综述 2

1.2.1 应用技术分析 2

1.2.2 时间序列分析 2

1.2.3 机器学习 3

1.3 论文结构 4

第二章 理论基础 5

2.1 Bagging法和随机森林 5

2.2 随机森林回归模型 6

2.2.1 基本原理 6

2.2.2 决策树构建和随机森林形成 6

2.2.3 随机森林性质 7

2.3 主成分分析法 9

2.3.1 基本思想 9

2.3.2 主成分分析法的数理分析 9

第三章 随机森林回归模型实证 11

3.1 数据来源及特征选择 11

3.1.1 数据来源 11

3.1.2 特征变量的初步选择 11

3.2 数据预处理 12

3.3 基于随机森林回归模型的股指预测 12

3.3.1 相关性分析 12

3.3.2 参数优化 13

3.3.3 特征变量重要性分析 14

3.3.4 预测结果分析 15

3.3.5 模型比较 17

3.4 主成分—随机森林回归模型实证 19

第四章 结论与展望 22

4.1 结论 22

4.2 未来展望 22

致谢 23

参考文献 24

绪论

研究背景及意义

股票最早出现在1602年,到现在已经有了四百多年的历史。随着股票的出现,股票市场应运而生,股票市场中发生的变化可以说是人类社会经济的“寒暑表”,这反映了上市公司的发展状况和整个社会经济的发展状况。股票价格指数是一种股价统计相对数,它反映股票市场总体价格水平和变动趋势。这个指数是先选定一个基期和一个报告期,并将后者的股票市值和前者相比,再与基期指数相乘得到报告期的指数。股票价格指数选取的股票一般是对大盘具有影响力的股票,因此股票价格指数的变化对投资者的选股策略和社会经济发展都有非常重要的影响。研究股票价格指数能够为套期保值者规避风险,同时也可以转移风险。

当今世界,随着社会信息化的不断发展,数据呈现了爆发式的增长,我们也进入了大数据时代。大数据对社会发展有着重要的作用,它不仅为我们带来了许多科研问题和思考,同时也带来了挑战。社会各界乃至各行各业所积累的数据量在这个大数据时代不断增加,从这些数据中寻找到有价值的信息并加以利用以推进各行业的发展变得十分重要。机器学习的飞速发展给挖掘数据的价值带来了许多很好的思路。机器学习是一门综合学科,研究计算机的学习行为和改善自身的能力。我们运用机器学习算法中的一些特定模型,通过对所获得的数据进行处理,从而获得隐藏在数据中的有价值的信息。至今为止,机器学习已经运用在我们生活的很多方面,如自然语言处理、环境监测、能源勘察等领域,运用机器学习来分析处理数据能大大提高工作效率。

剩余内容已隐藏,请支付后下载全文,论文总字数:28700字

您需要先支付 80元 才能查看全部内容!立即支付

该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;