论文总字数:34963字
摘 要
数据挖掘在大数据时代重新走进人们的视野,用数据挖掘对各领域数据进行分析处理成为新的热点。在金融领域中,股票数据是最受人们关注的一类数据,所有人都希望能够看透股票数据背后的规律。本文使用开源数据挖掘软件Knime作为开发平台,通过机器学习技术,实现了对上市公司股票未来趋势的预测以及结果准确率的提升。本文以烽火通信(600498)公司股票为例进行预测分析,研究结果表明,对数据进行平滑化平稳化处理后预测准确率得到明显提升:BP神经网络准确率从44%提升到67%;朴素贝叶斯分类器准确率从71%提升到75%;Logistic回归准确率从61%提升到85%。以上结果表明,使用机器学习技术预测未来股票发展趋势不仅可行,而且具有相当高的可信度。除了以上三种分类方法外,本文还使用多元线性回归的方法,对股票的未来价格进行预测,作为股票未来趋势预测的对比参考,预测结果的均方根误差为0.167。本文开发的基于Knime的金融数据挖掘工具可实现对所有能够在网上通过接口下载的上市公司股票数据的预测,具有较好的实用性。
关键词:数据挖掘,股价数据,数据加工,机器学习,准确率
Analysis and Improvement of Financial Data Mining
Based on Knime
09013419 Bai Yiyun
Advisor Yang Ming
Lu Shan
Abstract
Data mining comes into people's vision in the Era of Big Data, and becomes a new hot spot in the field of data analysis and processing. In the financial area, stock data is a class of data that most people concern. Everyone wants to see through the stock data and find the secret behind the data. In this paper, the open source data mining software Knime is taken as a platform, and the machine learning technology is used to fulfill the goal of forecasting the stock price of the listed company. FiberHome (600498) stock data is used as an example for analysis. As the results show, the prediction accuracy is improved obviously after data processing: BP Network’s result is improved from 44% to 67%; Naive Bayesian Classifier’s result is improved from 71% to 75%; Logistic Regression’s result is improved from 61% to 85%. The above results prove that the use of machine learning technology to predict the future trend of stock development is not only feasible, but also with high confidence. In addition to the above three classification methods, the method of Multiple Linear Regression is used to predict the stock’s future price in this paper. As a comparison with stock future trend forecasts, the root mean square error of the forecast is only 0.167. The financial data mining based on Knime proposed in this paper can realize the prediction of all the stock data of listed companies which can be downloaded through the interface on the Internet, and has good practicability.
KEY WORDS: Data Mining, Stock Data, Data Processing, Machine Learning, Accuracy
目 录
摘 要 I
Abstract II
第一章 绪论 1
1.1 论文研究背景 1
1.2 国内外研究现状 1
1.2.1 基于技术分析的股票数据挖掘 2
1.2.2 基于机器学习的股票数据挖掘 2
1.3 研究目标与内容 2
1.4 论文组织结构 3
第二章 关键技术 4
2.1 股票技术分析法 4
2.2 数据挖掘流程 4
2.2.1 CRISP-DM流程模型介绍 4
2.2.2 CRISP-DM流程阶段介绍 5
2.3 机器学习技术 6
2.3.1 Logistic回归 7
2.3.2 朴素贝叶斯分类器 8
2.3.3 BP神经网络 9
2.3.4 多元线性回归 10
2.4 本章小结 12
第三章 股票价格预测工具设计与开发 13
3.1 需求分析与总体设计 13
3.2 开发设置与环境 14
3.3 数据采集及处理 14
3.3.1 数据采集与预处理 14
3.3.2 数据平滑化与平稳化处理 17
3.4 特征选择 24
3.5 模型建立 25
3.5.1 Logistic回归模型 25
3.5.2 朴素贝叶斯分类器模型 26
3.5.3 BP神经网络模型 27
3.5.4 多元线性回归模型 29
3.6 本章小结 30
第四章 股票价格预测工具测试 31
4.1 实验设计 31
4.2 功能测试 32
4.3 性能测试 37
4.4 本章小结 37
第五章 总结与展望 38
5.1 论文总结 38
5.2 工作展望 38
致 谢 39
参考文献 40
第一章 绪论
1.1 论文研究背景
当今社会,互联网已经成为人们日常生活中不可或缺的工具,国内网民数量达到7.1亿人,占国家总人口半数以上。庞大的网民群体产生了海量的数据:电商销售数据、微博用户数据、金融证券数据等。数据是知识的载体,海量的数据承载了大量的信息。这些信息或许会对我们的生活产生重要影响,例如电商数据反映了一段时间内大众的需求,交通数据能够帮助司机避开交通拥堵等等。数据挖掘,就是我们从数据中获取知识的重要手段。
数据挖掘一般是指从大量的数据中通过算法搜索隐藏信息的过程。数据挖掘一方面吸纳了来自统计学的数学方法,另一方面采用了人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论。数据挖掘的主要流程包括模型选择、数据采集、数据预处理、数据挖掘、结果分析。通过对数据进行挖掘、分析,人们发现了数据背后有价值的信息,并把它作为未来工作的方法指导。
剩余内容已隐藏,请支付后下载全文,论文总字数:34963字
该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;