论文总字数:21038字
摘 要
大数据时代的到来使得统计学界对大规模数据处理的精度和速度要求日益提高。多重假设检验法成为高维数据推断的常用且最为有效的方法之一。FDR(错误控制率)思想的提出与Bonferroni型程序的应用,严格控制了多重假设检验问题中的犯错概率,可以大幅提高检验效能。
本文引入高斯过程回归建立非参数模型,并结合多重假设检验,在控制带方向的错误率的基础上,实现对函数型数据显著性区域的自动识别。然后,将模型应用在偏瘫患儿的临床治疗数据上,自动识别其显著性区域,得出在接受电动游戏疗法的患儿中,不同的治疗方案对各个年龄段的患儿的有效程度。
为了检验两样本函数型数据的显著性区域,本文运用基于错误发现率的多重假设检验方法,并创新性地提出带方向的假设检验。与传统双边检验相比,带方向的假设检验能够在一次检验中找出参数所属的区间,大大减少了检验次数,提高检验效能。
关键词:函数型数据 错误发现率 多重假设检验 显著性区域
Applying Directional Hypothesis Testing to
Find Significant Areas of Two Sample Functional Data
ABSTRACT
With the arrival of big data age, the accuracy and speed of large-scale data processing requirements are getting higher and higher. The multiple hypothesis test method is one of the most commonly used and effective methods of high dimensional data inference. False discovery rate (FDR) and Bonferroni-type procedures, strictly controlling the multiple hypothesis test problem in the probability of error, can greatly improve the test power.
This paper introduces the Gaussian process regression combining with the multiple hypothesis testing to establish a nonparametric model. And then directional hypothesis testing is applied to find the significant areas of two sample functional data automatically. Finally, the proposed model is applied to the clinical treatment data of children with hemiplegia, and the significant areas are identified. Then we can find out the influences of different treatment regimens for all ages children who receive electric game therapy.
In order to test the significant areas of two sample functional data, this paper uses a multiple hypothesis test method based on the false discovery rate and innovatively proposes the directional hypothesis test. Comparing it with the traditional hypothesis test, we can find out these parameters’ intervals in one test. Thus, it will greatly reduce the number of tests and improve power.
KEY WORDS: Functional data, false discovery rate, multiple hypothesis testing, significant areas
目 录
1 绪论1
1.1 研究背景及意义1
1.2 国内外研究现状1
2 预备知识4
2.1 带方向的假设检验4
2.2 多重假设检验5
2.3 错误发现率(FDR)5
2.3.1 错误发现率(FDR)的定义6
2.3.2 FDR的控制程序7
3 对显著性区域的自动识别9
3.1 带方向的错误发现率9
3.2 识别显著性区域的控制程序10
2.3 控制程序的优化12
4 数据处理和分析15
5 总结18
致谢19
参考文献(Reference)20
附件21
1 绪论
1.1 研究背景及意义
儿童痉挛性偏瘫,俗称脑瘫,是患儿的大脑在某种因素下发育不全而导致的的神经肌肉紊乱。这种疾病会导致患儿的运动功能受损。这里的神经紊乱,往往是指运动神经的受损,也就是说,患儿的运动能力要远低于同龄人,但智力水平和同龄人无明显差异。治疗偏瘫最传统也是最经典的康复疗法是强制性诱导疗法,患儿被强制佩戴抑制性手套,然后在康复师的帮助下,进行相关的训练。但是,这种方法单调枯燥,患儿缺乏兴趣,对康复师而言也是繁重的工作。目前临床上的研究已经证实,电动游戏疗法不仅有着较强的趣味性,而且对偏瘫患儿的治疗有更加显著的效果。但是目前临床上不能确定的是,基于电动游戏的疗法对不同年龄段的患儿的有效程度,以及在接受电动游戏疗法的患儿中,不同的治疗方案,对各个年龄段患儿的效果是怎样的。
本课题的数据来源是英国纽卡斯尔大学神经学系“关于电子游戏对偏瘫儿童的影响的研究”实验项目。受测患儿在接受电动游戏疗法治疗一段时间后,还将接受大圆小圆(BLC)测试,通过测试得分来反映患儿的手眼协调性,进而得出患儿的康复效果。本课题通过对上述数据的逐步分析,实现了对显著性区域的自动识别,即在接受电动游戏疗法的患儿中,不同的治疗方案对各个年龄段的患儿的有效程度是怎样的。
对于实验中所获取的数据,全部都是离散的数据,且数据量有限。众所周知,少量的离散数据样本无法反映总体的某些特点。于是本课题考虑使用函数型数据分析,这是近年来统计学通行的分析方法。数据在研究当中不再被看作是一个个分离的散点,每一组数据都可能对应着某一个函数。这种方法能够最大限度地通过样本反映总体的特点。由于接受测试的患儿有限,加上这种医学测试的持续时间较长等因素,课题所掌握实验数据呈现“小样本,高维度”的特点。针对这种特点,课题选用了近年来解决多重假设检验的显著性问题的新兴且有效的方法——错误发现率(false discovery rate:FDR)来控制多重假设检验的错误率。另外对于两样本函数型数据的显著性区域的识别,本课题创新性地提出了带方向的多重假设检验,实现了对显著性区域的自动识别,并结合FDR方法,控制多重假设检验犯第二类错误的概率。
本课题在已有的医学背景之上,更加注重统计学相关理论的研究。随着大数据时代的到来,对复杂大数据的快速高效处理要求更高,这也将使得多重假设检验有更加广泛的应用。
剩余内容已隐藏,请支付后下载全文,论文总字数:21038字
该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;