道路交通伤害死亡预测模型研究

 2022-08-20 08:08

论文总字数:10857字

摘 要

研究我国道路交通伤害的预测模型,以掌握我国道路交通伤害的发生和变化趋势,预防和减少道路交通伤害的发生、降低其的严重程度。方法 用季节性时间序列模型和BP神经网络模型对2001年-2012年每月我国道路交通伤害的十万人口死亡率进行建模与预测。结果 建立了SARIMA(0,1,2)(0,1,1)12模型和BP神经网络3-12-1模型,所得预测值的MAPE分别为5.095%和4.412%。结论 季节性时间序列模型和BP神经网络模型在道路交通伤害预测中具有较好的应用价值。

关键字:道路交通伤害;预测;时间序列模型;BP神经网络模型

Abstract: Objective Studying the predictive models of road traffic injury in china to know the happen and development trend of it and to prevent road traffic injury and reduce the severity of RTI. Methods Using seasonal time-series model and BP neural network model to establish and forecast based on data of 2001-2012 road traffic injury in China per month. Results SARIMA(0,1,2)(0,1,1)12 model and BP neural network model(3-12-1) have be built and the MAPE of the forecast value are 5.095% and 4.412%, respectively. Conclusion The seasonal time-series model and BP neural network model have significant value in RTI prediction.

Keywords: road traffic injury; time-series model; BP neural network model

道路交通伤害(road traffic injury, RTI)是值得全球共同关注的一大公共卫生问题。RTI目前是全球第十位死因,若不采取有效的干预措施,它将成为人类的第五位死因,甚至发展到2020年RTI将成为全球疾病负担的第三位死因[1]。从全球范围来看,虽然RTI的死亡率在各个国家间存在着差异,但其一直是世界各地15-44年龄组的主要死亡原因之一。据研究显示,机械化程度高的发达国家RTI的死亡率明显低于机械化程度低的发展中国家[2]。同时,RTI会带来巨大的经济损失,中低收入国家的1%-1.5%的国民生产总值和高收入国家2%的国民生产总值在RTI中毁之一炬[3]。中国是最大的发展中国家,也是RTI最多的国家之一。我国从80年代才开始有关RTI的研究。 据调查显示,RTI已成为中国伤害死亡的首要原因[4],并且我国有约60%的RTI死亡人员为16-45岁的中青年[5],这对我国的劳动生产力和社会发展造成了严重的负面影响。综上所述,道路交通事故已经对社会经济和人类的生命、财产、安全造成了极大的影响,交通安全形势严峻,并且造成这些危险的因素大多是人为因素,通过有效的措施可以预防。因此对RTI进行流行病学研究,掌握其影响因素及未来的发展趋势,并对其进行预防控制以减少RTI的发生是十分必要的。

目前,我国道路交通伤害数据监测系统日趋完善,并在指导实施和评估干预方面起着十分重要的作用。在此基础上建立预测模型并预测道路交通伤害死亡情况可以很好的为资源配置、政策完善和措施干预提供指导。迄今为止,关于中国道路交通死亡预测的模型并不是很多。ARIMA模型是对于时间序列数据建立模型和预测最常用和最重要的统计方法之一。RTI一般具有明显的长期趋势和季节趋势,而ARIMA模型并不能分析具有季节性的时间序列数据。为解决这一问题,SARIMA模型应运而生,并被运用于许多流行病学的研究。但是,在做SARIMA模型分析时使用的一般差分和季节性差分虽然能使序列平稳,但会使在一定程度上损失数据。BP神经网络模型是非线性的模型,相对于ARIMA等线性模型,它能更好的拟合每个数据。本次研究的目的主要是尝试通过季节性时间序列模型(Seasonal Auto-regressive Integrated Moving Average Model, SARIMA)和BP神经网络模型2种方法,对道路交通伤害死亡进行短期预测,并对这2种方法进行比较,阐述其对道路交通伤害死亡预测的效果及其优劣,为我国预防和减少道路交通伤害、降低事故严重程度、评价干预措施的效益以及制定相关政策策略提供科学依据和有效的指导[5]

资料来源

数据来源于公安部交通管理局道路交通事故统计年报以及中国统计年鉴(2002年-2013年),包括事故数、死亡人数、万车死亡率、十万人口死亡率等。本次研究主要运用2001年-2012年每月中国道路交通伤害的十万人口死亡率(表1)。

表1 2001-2012年每月中国道路交通伤害十万人口死亡率

年份

2001

2002

2003

2004

2005

2006

2007

2008

2009

2010

2011

2012

月份

1

0.71

0.71

0.66

0.72

0.62

0.6

0.49

0.45

0.43

0.5

0.4

0.31

2

0.63

0.73

0.69

0.65

0.61

0.57

0.5

0.39

0.4

0.35

0.3

0.3

3

0.58

0.62

0.56

0.58

0.52

0.45

0.42

0.39

0.35

0.32

0.32

0.34

4

0.65

0.7

0.64

0.6

0.59

0.54

0.48

0.43

0.39

0.36

0.38

0.34

5

0.66

0.67

0.59

0.64

0.58

0.52

0.48

0.43

0.37

0.36

0.36

0.35

6

0.64

0.64

0.63

0.66

0.57

0.55

0.47

0.43

0.36

0.36

0.35

0.32

7

0.67

0.66

0.65

0.69

0.59

0.57

0.49

0.43

0.39

0.38

0.35

0.36

8

0.72

0.73

0.7

0.75

0.64

0.6

0.53

0.44

0.42

0.41

0.38

0.37

9

0.75

0.8

0.7

0.75

0.7

0.63

0.52

0.47

0.42

0.42

0.41

0.39

10

0.77

0.77

0.76

0.74

0.7

0.64

0.53

0.48

0.45

0.43

0.43

0.42

11

0.81

0.78

0.78

0.74

0.72

0.59

0.59

0.56

0.5

0.5

0.46

0.44

12

0.7

0.71

0.71

0.72

0.71

0.54

0.67

0.64

0.57

0.48

0.48

0.48

方法

季节性时间序列模型

采用SPSS13.0对2001年-2012年每月道路交通伤害十万人口死亡率进行时间序列分析。根据相关文献可知,RTI的发生具有明显的季节性[3, 6, 7]。因此本次研究采用季节性自回归求和移动平均模型(SARIMA)。

方法介绍[8-18]

SARIMA模型可标记为SARIMA(p,d,q)(P,D,Q)S,公式为:

其中,S为周期,p为自回归模型的阶数、q为滑动平均模型的阶数,d为一般差分次数,P、D、Q为相应的季节性模型参数。

SARIMA模型需要在序列平稳的情况下使用。如果序列平稳,可直接建立模型,否则可以通过阶数差分、对数转化等方法使其尽量平稳。序列平稳后可以采用Box-Jenkins法和最小二乘法或非线性估计法来识别确定阶数和估计参数。最后对预测值和实际值进行残差分析,如果残差为白噪声序列,则确定模型,否则重新建模。

结果

以2001年-2011年每月我国道路交通伤害十万人口死亡率为训练样本,以2012年每月我国路交通伤害十万人口死亡率为检验样本,建立和检验模型。

我国道路交通伤害2001年-2011年每月十万人口死亡率具有明显的季节性,且该序列不平稳(图1)。为使序列平稳化,采用一般差分和季节性差分,周期数为12。根据数据处理后的序列图(图2)可知,序列平稳。根据自相关和偏相关系数图(图3、图4)可估计p为0,q分别为0、1、2、3,由于拖尾P、Q均为1。应用SPSS13.0进行参数估计,根据所得结果,删除无统计学意义的模型,对剩余的有统计学意义的模型SARIMA(0,1,0)(0,1,1)12、SARIMA(0,1,1)(0,1,1)12、SARIMA(0,1,2)(0,1,1)12 3种模型进行拟合。根据拟合结果(表2)可知,SARIMA(0,1,2)(0,1,1)12 模型的AIC和BIC最小,所以该模型最适合这次研究。表3为SARIMA(0,1,2)(0,1,1)12 模型的具体参数估计结果。对模型进行残差分析(图5),Ljung-Box Q检验(表4),Pgt;0.05,可知残差为白噪声序列,属于随机误差,确定模型。

用所建SARIMA(0,1,2)(0,1,1)12模型对2001年-2011年1每月我国道路交通伤害十万人口死亡率的时间序列进行回代预测(图6)并对2012年每月我国道路交通伤害十万人口死亡率进行预测(表5),预测结果和观测值相近,观测值在预测结果的95%CI内。

图1 我国2001年-2011年每月道路交通伤害十万人口死亡率时序图

图2 处理后的我国2001年-2011年每月道路交通伤害十万人口死亡率时序图

图3 数据处理后序列自相关系数图 图4 数据处理后序列偏自相关系数图

表2 SARIMA模型的拟合优化结果

模型

AIC

BIC

MAPE(%)

SARIMA(0,1,0)(0,1,1)12

-414.897

-412.118

5.636

SARIMA(0,1,1)(0,1,1)12

-439.150

-433.592

5.053

SARIMA(0,1,2)(0,1,1)12

-443.952

-435.615

5.095

表3 SARIMA(0,1,2)(0,1,1)12模型参数估计

估计

SE

t

P值

差分

1

滞后1

0.545

0.91

6.011

lt;0.001

滞后2

0.228

0.092

2.475

0.015

季节性差分

1

MA,季节性

滞后1

0.558

0.089

6.293

lt;0.001

表4 SARIMA(0,1,2)(0,1,1)12模型Ljung-Box Q检验

统计量

自由度

P值

5.150

15

0.991

图5 残差自相关函数和偏相关函数图

图6 2001年-2011年每月我国道路交通伤害十万人口死亡率回代预测结果

表5 2012年每月我国道路交通伤害十万人口死亡率预测结果

参数

月份

1

2

3

4

5

6

7

8

9

10

11

12

实际值

0.31

0.30

0.34

0.34

0.35

0.32

0.36

0.37

0.39

0.42

0.44

0.48

预测值

0.38

0.29

0.28

0.33

0.32

0.31

0.32

0.35

0.37

0.39

0.44

0.46

UCL

0.46

0.37

0.36

0.41

0.4

0.4

0.41

0.44

0.46

0.48

0.53

0.55

LCL

0.31

0.22

0.2

0.25

0.24

0.23

0.24

0.27

0.28

0.3

0.34

0.36

BP神经网络模型

采用MATLAB2009a对2001年-2012年每月道路交通伤害十万人口死亡率进行BP神经网络模型分析。

方法介绍[19-23]

BP神经网络是一种多层前馈型误差传递网络,即信号向前传递,而误差反向传播。它主要包括输入层、隐含层和输出层(图7),能学习和保存大量的输入-输出模式映射关系。一个3层的BP神经网络就可以完成任意的n维到m维的映射。

输入层 隐含层 输出层

图7 BP神经网络基本结构

BP神经网络模型的基本原理是建立一个神经网络模型,通过训练样本和神经网络的自学习、自适应逼近样本间的非线性关系,建立相应模型,并预测相应结果。

采用Sigmoid函数(即S型函数)作为节点的转移函数,取值范围在0-1,是非线性的单极性对数函数,其公式为:

其中,λ为压缩系数,本次研究λ=1。根据文献叙述,BP神经网络的隐含层一般不超过2层,本次模型采用单隐含层的三层网络结构。在计算隐含层节点数时,采用如下公式:

其中,s为隐含层节点数,a为1-10之间的常数,m为输出层节点数,n为输入层节点数。用训练样本训练网络,在训练过程中不断改变节点数,选取最佳隐含层节点数,最后用检测样本检测训练出的网络,建立最终的BP神经网络模型。

结果

以2001年-2012年每月我国道路交通伤害十万人口死亡率为样本,建立4种模型。模型1:用3年历史同期十万人口死亡率预测下一年同期十万人口死亡率;模型2:用4年历史同期十万人口死亡率预测下一年同期十万人口死亡率;模型3:用5年历史同期十万人口死亡率预测下一年同期十万人口死亡率;模型4:用6年历史同期十万人口死亡率预测下年同期十万人口死亡率。

以模型1为例建立BP神经网络模型。根据现有数据,共有108个样本,其中训练样本96个,检测样本12个。

可知模型1输入层节点数为3,输出层节点数为1,根据上述公式可知隐含层节点数可为3、4、5、6、7、8、9、10、11、12。分别用训练样本对网络进行训练,并用检测样本进行检测与观测值比较,比较网络模型的MSE(表6)。当隐含层节点数为12时MSE有最小值,确定模型1的最优结构为3-12-1。按照上述方法分别确定模型2、模型3、模型4的最优结构为4-5-1、5-4-1和6-13-1,其对应的MSE分别为0.000562、0.000538和0.000719。

分别用4个模型的最优结构对检测样本进行预测,结果如下(表7)。由表7可知,模型1(3-12-1)的MAE和MPAE最小,确定为最终的BP神经网络模型。

表6 模型1网络的不同隐含层节点数MSE值

隐含层节点数

3

4

5

6

7

8

9

10

11

12

MSE

0.000569

0.000647

0.000805

0.000659

0.000666

0.000553

0.000714

0.000504

0.000899

0.000457

表7 4种BP神经网络模型对2012年我国道路交通伤害十万人口死亡率预测结果

月份

预测值

观测值

3-12-1

4-5-1

5-4-1

6-13-1

1

0.3

0.34

0.33

0.33

0.31

2

0.31

0.28

0.29

0.31

0.3

3

0.33

0.3

0.35

0.32

0.34

4

0.37

0.36

0.36

0.38

0.34

5

0.34

0.34

0.35

0.36

0.35

6

0.32

0.34

0.35

0.35

0.32

7

0.33

0.34

0.33

0.33

0.36

8

0.36

0.36

0.34

0.34

0.37

9

0.38

0.38

0.37

0.37

0.39

10

0.41

0.39

0.39

0.39

0.42

11

0.43

0.41

0.41

0.4

0.44

12

0.43

0.45

0.46

0.46

0.48

MAE

0.0163

0.0219

0.0213

0.0248

-

MAPE

4.412

5.933

5.794

6.745

-

讨论

ARIMA模型是重要时间序列分析预测模型,已被广泛应用于时间序列分析,它通过综合考虑序列的趋势变化、周期变化和随机干扰,并借助参数进行量化表达,能够较为精确地反映时间序列中所包含的动态依存关系。道路交通伤害的发生受人、环境等多种因素的影响,要获得理想的模型比较困难,而ARIMA模型是运用样本数据的自身变化规律进行建模,对数据要求不高,易于实现。其中,SARIMA模型可通过差分、自回归、滑动平均法和季节性分析来有效地控制长期趋势、自相关作用和季节性波动,而不需要进行复杂的转换或运用其它的替代变量。根据图1可知本次研究的数据明显具有季节性,因此选用SARIMA模型可以较好的获得适合的模型并且得到较为准确的预测值。由图8可知随着预测时间的延长,预测结果的可信区间增大,模型的预测精度降低,所以SARIMA模型只适用于短、中期预测,当外推时间延长时,要考虑到模型预测精度的问题。另外,时间序列模型的建立对数据的例数有一定的要求,建立ARIMA模型要求至少有30个以上的数据,而建立SARIMA模型则要求更多,需要至少50个数据样本[24]

BP神经网络在人工神经网络中应用最为广泛,对于一般的线性模型难以提取内在的变化规律的样本,可以考虑建立BP神经网络模型。一般来说,神经网络的隐含层最多两层即可,单隐含层的3层BP神经网络就可以实现任何复杂的非线性映射。因为BP神经网络存在着易陷入局部极小、收敛速度慢和引起震荡效应等缺点,所以在建立模型时,网络结构的确定尤为重要。目前对于隐含层节点数的确定是一大难点,若隐含层节点数太少,则模型过于简单,拟合效果较差;若隐含层节点数太多,则模型过于复杂,易发生“过拟合”,并且到现在为止尚无文献提出明确的确定隐含层节点数的方法。所以本次研究对隐含层节点数进行反复尝试,通过比较不同节点数模型的拟合效果,选择最佳的网络结构。

BP神经网络可以结合不同的因子来做出预测,以挺高预测的精度。本文由于数据来源、研究时间等关系,在构建模型时并未纳入各种不同的因子,这一方面在今后可以深入研究。

综上,BP神经网络模型最适用于道路交通伤害宏观预测,且短期预测精度很高。

本文用同一样本数据,通过2种不同的模型对每月我国道路交通伤害十万人口死亡率进行建模预测。通过比较(表8)可知,SARIMA(0,1,2)(0,1,1)12模型和BP神经网络(3-12-1)模型的MAPE分别为5.095%和4.412%。BP神经网络模型的MAPE较小,表示BP神经网络(3-12-1)模型对数据的预测较好,但两者差别不大,均有在道路交通伤害预测中具有较好的应用价值。

图8 2012年-2013年每月我国道路交通伤害十万人口死亡率预测结果

表8 2种不同的模型对每月我国道路交通伤害十万人口死亡率预测值误差比较

月份

观测值

预测值1

预测值2

1

0.31

0.38

0.3

2

0.3

0.29

0.31

3

0.34

0.28

0.33

4

0.34

0.33

0.37

5

0.35

0.32

0.34

6

0.32

0.31

0.32

7

0.36

0.32

0.33

8

0.37

0.35

0.36

9

0.39

0.37

0.38

10

0.42

0.39

0.41

11

0.44

0.44

0.43

12

0.48

0.46

0.43

MAPE -

5.095%

4.412%

注:预测值1为SARIMA(0,1,2)(0,1,1)12模型的预测值,预测值2为BP神经网络(3-12-1)模型的预测值。

参考文献

[1] Organization World Health. Global status report on road safety 2013: supporting a Decade of Action[J]. Data collection, 2013.

剩余内容已隐藏,请支付后下载全文,论文总字数:10857字

您需要先支付 80元 才能查看全部内容!立即支付

该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;