论文总字数:8471字
摘 要
:本文介绍了线性回归模型的参数估计与统计诊断方法,进而研究了Logistic回归模型的诊断统计量,并推导了Logistic回归模型的统计诊断方法。借助于SPSS软件,对银行客户的数据资料建立Logistic回归模型,预测了客户信用卡违约概率,并探索违约客户的主要特征.本文通过各诊断统计量的散点图描述并判别模型的异常点或强影响点,对信贷从业者具有一定的参考价值.关键词:Logistic回归模型,统计诊断,异常点,强影响点
Abstract: This paper introduces the parameter estimation and statistical diagnosis of linear regression model and also studies the diagnostic statistics of logistic regression model and deduces the statistical diagnosis method of logistic regression model. With the help of SPSS software, a logistic regression model is established for the data of bank customers, which predicts the default probability of credit cards and explores the main characteristics of defaulting customers. This paper describes and distinguishes the outliers or strong influence points of the model through scatter plots of diagnostic statistics, which has a certain reference value for credit practitioners.
Keywords: the Logistic regression model, statistical diagnosis, persistence, outlier, strong influence point
目 录
1引言 4
2线性回归模型 4
3 Logistic回归模型及其参数估计 5
4 Logistic回归模型的统计诊断 6
4.1基于数据删除模型的统计诊断 6
4.2基于均值漂移模型的统计诊断 8
5实例分析 8
5.1建立Logistic回归模型 8
5.2变量筛选与拟合优度检验 9
5.3模型的统计诊断分析 12
结论 15
参考文献 16
致谢 17
附录:本科期间完成的学术论文 18
1 引言
中国经济快速发展,国人的消费水平不断提升,中国信用卡市场是中国个人金融服务市场中成长最快的产品线之一,虽然行业经济效益充满挑战,但受规模效益以及消费者支出增长的推动,今后10年间中国信用卡发卡量的年均增速将保持在14%左右,预计到2020年,中国信用卡的累计发卡量将超过8亿张.目前信用卡申请准入门槛越来越低,申请人数也越来越多,银行也是主推的信用卡,不少银行工作人员在高校推广信用卡送拉杆箱等活动来吸引更多的人办理信用卡,很多人也就是随大流申请,银行在获得巨大收益的同时也承担着巨大的风险,准确判断风险客户以获得最大的收益成为银行最关心的问题.为此我们需要建立模型预测银行客户违约概率,分析潜在违约客户特征.由于响应变量是定性的,此刻线性回归模型已经不再适用,根据统计学知识,当预测一个观测值为定性变量时,例如:“是否”购买某商品,“是否”患某疾病,“是否”签订某一合同等,可以使用Logistic回归模型来预测.
Logistic回归模型的研究已经比较完善.在线性回归当中我们运用最小二乘法估计线性模型的未知参数,但由于极大似然估计有更好的统计性质,所以一般采用极大似然法拟合Logistic 回归模型的未知参数.极大似然估计法在理想数据情形下,模型的拟合效果非常好,但实际观测数据与真实数据可能存在较大的偏差,以至于模型缺乏稳健性,如果我们不考虑这种偏差,仍然沿用经典的分析方法,就可能导致错误的结论.George与Mudholkar给出了Logistic分布与指数分布间的关系[1];Landwehr和Pregibon提出了一系列的统计诊断图[2];韩俊林和陈励运用EM算法对随机效应Logistic回归模型进行了参数估计[3];谭宏卫和曾婕提出Logistic回归模型的影响分析[4];吴振强等以探讨胃癌的危险因素为例,系统的介绍了采用Logistic回归分析时需要注意的问题[5].
本文参考《我国股市现状诊断研究》的研究方法,针对某银行客户的数据资料做Logistic回归分析,以信用卡负债(千元)、年龄、负债收入比率(x100)、当前雇方工作年限等作为研究对象,探讨各因素是如何影响客户违约概率的,并进行统计诊断.文章的结构为:第二章回顾线性回归模型与统计诊断的基础知识.第三章介绍Logistic回归模型的定义,通过极大似然估计的方法估计出模型的未知参数.第四章推导Logistic回归模型统计诊断的主要诊断统计量.第五章利用Logistic回归模型探索银行客户违约因素,分析潜在违约客户特征.
2 线性回归模型
若因变量与自变量之间具有线性关系
,
其中为误差项,
,,,,
误差项,满足Gauss-Markov假设
;
;
.
的最小二乘估计值为:
,
的估计值:
,
其中
称为帽子矩阵.其元素称为杠杆值,其反映模型的拟合情况,杠杆值接近于1的点称为高杠杆值点.
3 Logistic回归模型及其参数估计
对于二值随机变量,建立与之间的关系(响应变量按0/1编码取值),使用Logistic回归函数
, (3.1)
令整理(3.1),得
, (3.2)
的值称为发生比(odd),其取值范围为0到.对(3.2)两边同时取对数,得
.
若Logistic回归模型的数据中有个协变量,则因变量取1的次数,得其概率密度函数为
,
其对数似然函数为
.
剩余内容已隐藏,请支付后下载全文,论文总字数:8471字
该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;