论文总字数:28081字
摘 要
想要准确地预测房价是非常困难的,其中一大难点就是房价之间彼此影响,这其中暗含了出高房价房源集中,房价有着空间依赖性。在本篇论文中,我们先运用R软件,利用多元统计分析的判别分析方法从可供观测的多个指标出发来实现后退剔除法,实施筛选因子过程。受半参数空间动态模型的启发,在本篇文章中,调查了怎样去检验半参数模型中的参数与非参数成分,展示出未知参数和未知二元函数的数量。本文章主要在此模型的基础上进行改进,考虑时间变量的作用,将模型推广为时空动态模型。之后,用MATLAB仿真来检查该方法是否适用,最后,应用该方法分析深圳房价数据。
关键词: 半参数模型, 时空模型, 时间变量,局部线性拟合,逐步判别
A semiparametric spatio-temporal dynamic model
07312112 Qingxin Zhang
Hongxia Wang
Abstract
It is quite difficult to accurately predict the house prices. One of the major difficulties exists in the impact of house prices of each other. which implies a focus on the high prices of housing and housing prices have spatial dependence. In this paper, we first use discriminant analysis method of multivariate statistical analysis of observations of R software from a number of indicators available starting for stepwise discriminant, factor implement screening process. Inspired by the semi-parametric space the dynamic model, in this article, we investigate how to test semi-parametric model parameters and non-parametric component, showing the number of unknown parameters and unknown binary function. This article is mainly based on this model but also consider the role of time variable, the model is extended to temporal dynamic models. Then, use MATLAB in the data of housing prices in Shenzhen to check whether the method is applicable.
KEY WORDS: semi-parametric model, spatio-temporal model, stepwise discriminant, time variable
目 录
摘要· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · Ⅰ
Abstract· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · Ⅱ
- 绪论· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · ·1
- 选题背景· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · ·1
- 国内外研究的发展与现状 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 1
- 本文内容结构· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · ·2
第二章 预备知识
2.1局部线性方法· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 2
2.2 逐步选择法· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · ·3
- AIC方法· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · ·4
第三章 半参数时空动态模型· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 4
3.1 模型介绍· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 4
3.2 估计过程· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 6
3.3 模型中估计量的常量· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · ·7
- 判定条件· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · ·7
- 计算方法· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · ·8
第四章 深圳房价预测实例· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · ·9
4.1 背景介绍· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · ·9
4.2 结果分析· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · ·10
附录· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 18
- 绪 论
- 选题背景
Sun et. al.(2014)发表在The Annals of Statistics上发表了文章半参数空间动态模型,该文章提出一个半参数空间动态模型,在普通的空间自回归模型的基础上发展出了能够适应与房价相关的协方差影响的模型。当一个基于估计程序的profile经验似然被提出后,该估计量的渐进正态性从而就被发掘出来。该文章调查了怎样去检验出这个半参数模型中的参数成分与非参数成分并且展示了其中未知参数和未知二元函数的数量,进而为AIC和BIC模型选择方法提出了非参数的版本。之后,采用仿真研究的方法去检查了该方法的好坏。由仿真结果可以看到此种解决方法十分出色。最后,应用该方法分析了波士顿房价数据,并得出了一些有趣的结果。
但在实际应用中,时间变量的作用是不可忽视的。比如 Sun et. al.(2014)文章中仿真研究应用的波士顿房价数据与时间的关系便是息息相关的。故本篇文章是基于该半参数空间动态模型,将其推广为半参数时空动态模型。
- 国内外研究的发展与现状
Hedonic模型常被用来进行传统上的房价市场分析,在各项具体特征例如:可达性,附近街区特性和结构特点被确定后,就可以用hedonic模型来估计房价。但hedonic模型是基于残差相互独立的假设上,这意味着一个地区的房价不被周边房价所影响,这明显是不对的。在现实中,相似的房源价格往往类似,原因在于他们享有共同的社区因素,例如一些类似的物理特征:楼盘年龄、大小,以及相似的社区便利设施:社区经济水平,就业率,购物中心,公共服务设施,学校。
为了得到房价之间的空间相关性,在房价市场中,涌现出许多不同的方法来获取空间相似性和空间异质性。对应于不同的假设,空间回归模型被分为两类:全局模型和局部模型。全局模型往往是由传统的hedonic模型改进而来,Olmo(1994)将传统hedonic模型用克里格差值法与广义最小二乘估计加以改进,以达到减少房屋之间的空间相关性的目的。Dubin(1998)也应用克里格插值技术以此改进传统hedonic模型,并应用于估计回归系数和预测房价中。考虑到在不同次级市场房价的空间自相关系数的不同,一个改进的应用广义最小二乘法估计的回归方法被Basu和Thibodeau(1998)提出。同样地,Goodman and Thibodeau (1998)向房地产文学引进了分层线性模型的概念:居住特性、附近街区特性以及次级市场影响并与房价相互作用。此外,Pace et al. (1998b)介绍了一个空间滤波过程,将价差的空间信息考虑进去。至此,所有以上提出的方法都为全局方法,价差的分布被视为静态的,且只考虑空间相关性。尽管如此,这样的不变性假设并不符合实际情况。所以,一些局部空间方法被提出来处理空间的动态性和异质性。McMillen (1996) and McMillen and McDonald (1997),用一种局部加权回归方法来对芝加哥房屋数据进行建模。值得注意的是,Brunsdon et al. (1996), Fotheringham et al. (1996), and Fotheringham et al. (2002)提出了地理加权回归(GWR)作为局部变化建模技术。
在空间关联性的基础上,观测量的时间同样对房价有影响,人们普遍认为房价不仅依赖于近期市场时间同样也受到价格滞后的影响。时间效应包括市场趋势,通货膨胀因素以及与房屋年龄分布相关的折旧的微分速率,房屋设施的折旧的速率与在最初研究的房屋特点相关联,房屋的最初价值,房屋最初的设施,以及其他在模型中被忽略的因素。(Dombrow et al., 1997)
直至今日,在房价研究中同时考虑到空间和时间特点的研究是相关稀少的。Gelfand et al. (2004) 提出了一系列丰富的时空模型,其中每一个特性都是一一对应的且与之相关的售价是通过一组通过时间索引的空间过程。Can and Megbolugbe (1997)运用了带有一个平均距离加权变量的hedonic模型来适应空间和时间的信息。另外,Pace et al. (1998)首创地整理出与时间特性相对应的观测量数据,再运用时空邻近滤波方法来改进估计模型的准确性。以Gao, J., Lu, Z. and Tjøstheim, D. (2006),Kelejian, H. H. and Prucha, I. R. (2010),Ord, K. (1975),Su, L. and Jin, S. (2010)提出的空间自回归模型以及变系数模型(Cheng et al; Fan and Zhang ; Li and Zhang Sun et al. ; Zhang et al. ; Wang and Xia ; and Tao and Xia )为基础,Sun et. al.(2014) 综合得出了一个半参数空间动态模型,并应用到波士顿房价数据中,得出了非常不错的结果。
- 本文内容结构
该篇论文是依照以下的顺序来叙述的:在之后的第二章中分别阐述局部线性估计方法的原理及其性质,如何选择变量的逐步判别法、AIC方法的原理。第三章介绍半参数时空动态模型,给出所选择模型的估计过程,并展示出有多少未知参数以及多少未知二元函数。第四章用matlab进行仿真,第五章将该时空动态模型实际运用到深圳的房价数据中并依据结果分析模型,进行评价。
整片文章中,是一个初始值为0的维向量,是一个大小为的单位矩阵,是一个在上的二维均匀分布。
第二章 预备知识
2.1 局部线性方法
Stone(1977,1980,1982) 和Cleveland(1979) 系统地研究了非参数回归模型的局部多项式拟合。Mack et al.(1989) 和Chu et al.(1991) 得出局部线性拟合的逐点渐近偏和方差。Nadaraya-Watson 核估计的方差与局部线性拟合的相同,但多了一项。Fan et al.(1992) 提出来局部多项式拟合的理论窗宽的选择方法。Fan et al.(1995) 得到由数据导出的窗宽选择方法。Gasser et al.(1991) 给出了局部多项式拟合的最佳核函数。Fan(1992)在理论上证明了局部多项式拟合能自动地进行有效的边界修正并且具有对数据类型的适应性。Fan et al.(1992) 讨论了局部线性拟合的变窗宽的选择问题。Fan(1993)证明了局部线性是最好的线性平滑方法。Ruppert et al.(1994) 将一元的结论推广到多元情形。Ruppert et al.(1995) 提出的局部最小二乘估计的有效窗宽的选择方法。Opsomer et al.(1997)用局部多项式方法估计二元非参数可参加回归模型。
如今空间数据越来越多应用于不同场合中,包括计量经济学、流行病学、环境科学、图像分析、海洋学等。
记, , 为N维欧式空间里的整数格点。在中的一个点记作一个站点。用i来做指示,建立空间数据的模型,矢量的随机过程来进行有限的实现:随机场。在这里,我们考虑严格的静态)维随机场,具有以下形式:
在这里,的值域为, 的值域为 定义在某一概率空间。
对于许多应用来讲空间回归是一个很重要的问题,相关变量对响应变量的影响在复杂的空间相关性中被研究。更准确地来讲,假设有一个有限的期望,研究此类问题重点在于以下的空间回归函数
在这个背景下的空间相关性显得特别麻烦并且不准确。虽然明显只由值为零的一些决定。为了简便,我们把看做严格定义实值的可测的函数,即没有概率陈述的含义。在特殊的场合即本身关于可测并为其一子集,在附近变化,被叫作一个空间自回归函数。这样的空间自回归函数最早在1954年被提出,是一个具体的局部自回归函数。
不同的是,我们选择与完全不同的观点,采用非参的观点,避免给这个极度复杂的空间相关结构的数据给予任何参数的叙述。
对于的情况,这个问题简化为经典的序列相关观测量的自回归,也是我们重点讨论的内容。但的情况鲜有涉及,就我们所知,唯一可知空间回归函数的估计的结果来自和,他们研究了一个核估计的性质。
尽管方法重心在于非参数回归方法中传统序列情况,但根据和()提出的,这个估计存在一些严重的缺点,例如边界性能差,过度的有偏性和低效。提出的局部多项式拟合方法,特别是局部线性拟合,近几年受到了越来越多的重视。对于,和研究了在通常情况下对于局部多项式回归的拟合的渐进性质。
推广经典或时间序列渐进性质(N=1)到空间渐进性质(Ngt;1)是不容易的。因为缺少在空间的规范有序,所以没有明确的尾域。这样一来,遍历这样的基本概念在空间的背景下就需要很好的定义了。再者,在以往的文献中提及此部分的非常之少,只有中心极限的结果被很好的记载下来。见。
假定这样的一个映射:处可微,其导函数。局部线性回归的中心思想便是在的邻域估计:
估计(,而不是单单运行对于一个经典无参数(例如:基于核的)的估计方法。为了达到这样的目的,我们提出一个加权最小二乘估计量(,,以及研究该估计量的渐进性质。重要的是,得出各种不同混合条件下当在两个方向趋于无穷时该估计量的渐进正态性。
2.2 逐步判别法
多元统计判别把每一类看成一个总体,一些数值变量看成随机向量,这些数值变量称为判别因子或预报因子。判别分析的数学模型是:设判别因子来自个总体,(这个总体通常称为个类)。它们分别服从多元正态分布, , 其中,是已知或未知向量(通常是未知的),是已知或未知矩阵(通常是未知的),每次观测(判别因子的个值)是某类随机向量的观测值。如今有一个观测向量(样本),需要判定 来自个总体中的哪一个(属于哪一类)。从预报角度来看,判别分析的预报因子是数值变量,预报对象是属性变量。
实际问题中,,, 总是未知的,但我们知道每个总体的若干个样本:第1类有样品,;;第类有样品,,这些样品值所构成数据称为训练数据。从而可以分别计算每类样本均值(也称为类均值), 和样本方差阵(也称为类样本方差)
用它们估计各总体的均值和方差阵。
判别分析的方法里有一种方法便称为逐步判别法。
判别分析模型中的随机向量的维数不宜太高(即预报因子的个数不宜太多):维数高了的话,协方差阵可能是病态或接近病态,从而计算逆矩阵时会有较大误差,参数估计不正确,误判率会增大。所以,选出合适的指标(随即向量)变得十分重要。一方面,可以从这些指标的实际意义判断,另一方面也可以对这些指标的观测值做定量的分析,即用类似回归分析选模型的方法选择合适的指标(判别因子),最后还可以采用降维方法。
选因子方法的数学假设是:各类的判别因子服从具有共同协方差阵的多元正态分布。常用的是向前选入,向后剔除,逐步选择这三种方法选择预报因子。选入或剔除的标准可以是检验法。逐步选择法的步骤是:逐步选择开始时,模型中没有变量。每一步模型都被检查:不在模型中的、统计量最大的(对模型判别能力最大的)变量,达到留在模型中的标准,它就被选入模型;如果统计量最小的(对模型的判别能力最小的)变量,达不到留在模型中的标准,它就被剔除;当模型中所有变量都达到留在模型中的标准而又没有其他变量达到进行模型的标准时,逐步选择过程就停止。向前选入和向后剔除法类似于回归分析的向前选入和向后剔除法。
2.3 方法
信息准则全名为Akaike information criterion,是用来衡量(量化)统计模型拟合优良性的一种标准,由于它为日本统计学家赤池弘次提出,因此又被称为赤池信息量准则。
在一般不加说明的情况下,可以表示为:
其中:表示参数的个数,L则为似然函数。 假设前提是模型的误差独立且服从正态分布。若为观察数,记为剩余平方和,那么可由如下表示:
当自由参数的数目增多以后也提高了拟合的优良性,而正是崇尚数据拟合的优良性,但是应当尽量避免发生过度拟合的情况。故优先考虑的模型一定是的值最小的那一个。简而言之,信息准则方法是寻找可以最好的解释数据的同时包含最少数目的自由参数的模型。
第三章 半参数时空动态模型
3.1 模型介绍
如果我们记为时间在地点的房价的中位数,那么关于该数据的一个空间自回归模型可以为
- ,
为在处的影响因子。然而,模型(1.1)不够准确因为只通过中位数就在处建立起了的模型。于是,考虑结合一些重要的协同影响因子到模型中去,例如地价及与CBD、学校、交通干线、医院的直径距离。记为一个p维的与有关的共变向量。可以得到一个适应该数据的合理模型
- ,
在这里,与是未知的。然而,该模型(1.2)存在三个问题:首先,此模型存在太多未知参数;再者,未考虑到影响共变量的地点因素——这些因素也许会随着地点的改变而改变;最后,这些因素会随着时间的改变而改变。为了控制未知参数的个数以及考虑地点、时间因素,我们提出以下模型来拟合数据:
- ,
在这里,是一个特定的物理或经济距离,为第个观察值的地点,是一个二维向量,是观测第个观察值的时间。,之间相互独立并服从正态分布 独立于{.是需要估计的未知量。(1.3)是该篇论文要讨论的模型。并且,不一定指代房价,它是一个通用的响应变量。我们之后还可以看到,为了更好的描述估计过程,我们对进行正态假定。
在模型(1.3)中,在)处的空间邻近效应通过来度量的。在这里,是一个特定的物理或经济距离,是一个未知的空间邻近效应的底线。这样的方法去定义空间邻近效应非常常见。详见Ord [12], Anselin [1], Su and Jin [13].
如果对于空间邻近效应没有施加条件的话,并且 j=,我们有()种估计未知可能性。在这样的情况下,关于不能用单一的估计量。尽管如此,如果我们在上强行施加极大似然性,运用单一估计量来估计是切实可行的。
模型(1.3)是一个有用的空间自回归模型在时空的维度下的延伸,一个关于模型(1.3)的性质是
剩余内容已隐藏,请支付后下载全文,论文总字数:28081字
该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;