论文总字数:27591字
摘 要
面向个人的银行信用评级方法在目前被各大银行所重视,但是每种模型的核心算法都有其局限性,本文尝试根据数据集合的容量来优化选取模型核心算法,从而得到对于当下集合容量的最优方案。
本文通过使用基于Python的模型构建来模拟银行对普通用户的信用评级过程,并通过十折交叉检验和ROC曲线来检验模型的时间花费和预测准确度,最终发现在最初阶段,即无训练集时,使用决策树方法的效率和准确率最高,因为该方法最符合传统业务逻辑,方便转化,且无需考虑数据间的隐含关系;当数据集合容量在一定范围时(本文中为0-50),使用支持向量机会有较高的预测准确度,但是时间消耗明显;当数据集合容量很大时,使用逻辑回归会显得更加出色。
根据三种模型的对比研究,发现可以通过对训练集合容量的选取来选择最优化的核心算法,以此为核心的复合模型表现良好。通过该方法,可以有效避免过拟合等现象的出现。
关键词:机器学习,信用评级,支持向量机,决策树,Logistic 回归
Abstract
The bank-oriented credit rating method for individuals is currently valued by major banks. However, the core algorithm of each model has its limitations. This paper attempts to optimize the selection of the model core algorithm based on the capacity of the data set, so as to obtain a solution based on the current situation.
This paper uses a Python-based model construction to simulate the bank's credit rating process for ordinary users, and tests the time cost and prediction accuracy of the model through a 10-fold crossover test and ROC curve. Finally, it is found in the initial stage, that is, when there is no training set. The use of decision tree method is the most efficient and accurate, because the method is most consistent with the traditional business logic to facilitate conversion, and does not need to consider the implicit relationship between data; when the data set capacity is within a certain range (in this article, 0-50) The use of support vector opportunities has a higher prediction accuracy, but the time consumption is significant; when the data collection capacity is large, the use of logistic regression will appear even better.
According to the comparative study of the three models, it is found that the core algorithm can be selected by selecting the optimal training core capacity. Through this method, the phenomenon of over-fitting and the like can be effectively avoided.
KEY WORDS: Machine Learning, Credit Rating, Support Vector Machine, Decision Tree, Logistic Regression
目录
摘要 I
Abstract II
第一章 引言 1
1.1 研究背景及意义 1
1.1.1 研究背景 1
1.1.2 研究意义 1
1.2 基本概念 2
1.2.1 信用 2
1.2.2 信用评价 2
1.2.3 普通用户 3
1.3 研究方法 3
第二章 信用评价发展概述及文献综述 5
2.1 信用评价理论发展历程 5
2.1.1 古典信用评价方法 5
2.1.2 统计方法 5
2.1.3 现阶段信用评分方法 6
2.2 国内外文献综述 6
2.2.1 银行面向普通用户的评级系统 6
2.2.2 机器学习方法 7
第三章 三类用户信用评价机器学习算法的比较 9
3.1 计算机语言和相关的库 9
3.1.1 Python语言 9
3.1.2 Scikit-learn库 9
3.1.3 Pandas库 9
3.2 数据集选取及介绍 10
3.3 数据集预处理 12
3.4 支持向量机 13
3.4.1 算法介绍 13
3.4.2 算法数学解释 13
3.4.3 核函数 16
3.5 逻辑回归 16
3.5.1 算法的数学解释 16
3.5.2 过拟合现象 17
3.6 决策树方法 17
3.6.1 算法简介 17
3.6.2 局限性和解决方法 17
3.7 基于scikit-learn库的违约判定模型构建 18
3.8 结果分析 18
3.8.1 ROC曲线比较 18
3.8.2 十折交叉检验结果和运行时间比对 22
第四章 基于复合算法的信用评价模型构建 23
4.1 复合算法原理 23
4.2 复合算法实现途径 23
4.3 复合算法实例验证 23
第五章 结论与展望 25
致 谢 26
参考文献 27
引言
研究背景及意义
研究背景
2008年的金融危机在欧美国家的影响尚未完全散去,这是一场由美国新世纪金融公司遭受的次级抵押贷款危机引发的“次贷危机”,被世人称为“华尔街金融海啸”。这场影响深远的金融危机引发了金融界对如何防范金融系统风险的思考。虽然中国政府通过一定的金融和政治手段减弱了这场金融危机的影响,但是我们仍需要思考国内金融市场潜在的风险,做到防患于未然。
银行面向普通个人用户的信贷业务有着广阔的市场和一定的风险,随着业务量的不断上升,传统的通过特定部门员工进行评估授信的方式会面临各种各样的问题,例如审批时间太长、人为失误率增加和风险管控能力下降等,这些对商业银行的竞争力增长都有明显的阻碍作用。
剩余内容已隐藏,请支付后下载全文,论文总字数:27591字
该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;