Dirichlet树多项分布的性质及其应用

 2022-05-11 20:29:06

论文总字数:57905字

题 目____Dirichlet树多项分布的性质及其应用_____

数学学院(系)统计学 专业

学 号 07315113

学生姓名_____王一茗________________________

指导教师 王冠军

起止日期 2019.1.1——2019.5.30

设计地点_____东南大学数学学院______________

% !TEX TS-program = xelatex

% !TEX encoding = UTF-8 Unicode

% !Mode:: "TeX:UTF-8"

\documentclass[bachelor,nocolorlinks, printoneside]{seuthesis} % 本科

% \documentclass[master]{seuthesis} % 硕士

% \documentclass[doctor]{seuthesis} % 博士

% \documentclass[engineering]{seuthesis} % 工程硕士

\usepackage{CJK,CJKnumb}

\usepackage{amsmath}

\usepackage{amsfonts}

\usepackage{bm}

\usepackage{algorithm}

\usepackage{algorithmicx}

\usepackage{algpseudocode}

\usepackage{subfigure}

\usepackage{amssymb,amsthm}

\usepackage{listings}

\newtheorem{theorem}{定理}[section]

\newtheorem{defn}{定义}[section]

\newtheorem{lemma}{引理}[section]

\newtheorem{prop}{命题}[section]

\newtheorem{rem}{备注}[section]

\floatname{algorithm}{算法}

\renewcommand{\algorithmicrequire}{\textbf{输入:}}

\renewcommand{\algorithmicensure}{\textbf{输出:}}

% 这里是导言区

\begin{document}

\categorynumber{000} % 分类采用《中国图书资料分类法》

\UDC{000} %《国际十进分类法UDC》的类号

\secretlevel{公开} %学位论文密级分为"公开"、"内部"、"秘密"和"机密"四种

\studentid{07315113} %学号要完整,前面的零不能省略。

\title{Dirichlet树多项分布的性质及其应用}{}{The Properties and Application of Dirichlet Tree Multinomial Distribution}{subtitle}

\author{王一茗}{Yiming Wang}

\advisor{王冠军}{教授}{Guanjun Wang}{Prof.}

%\coadvisor{副导师}{副教授}{Co-advisor's Name}{Associate Prof.} % 没有

% \degree{工学硕士} % 详细学位名称

\major[12em]{统计学}

\defenddate{答辩日期}

\authorizedate{学位授予日期}

\department{数学}{department name}

\duration{2019年1月1日—2019年5月30日}

\address{东南大学数学学院}

\maketitle

\begin{abstract}{\ 狄利克雷树多项分布,\ 期望,\ 协方差,\ 相关性,\ 数值模拟}

刻画多元计数型数据的常见分布是多项分布, 但该分布能刻画的数据类型较为单一且分布本身不够灵活, 而在现实生活中的数据常是复杂多样的, 特别是在一些微生物组数据中, 数据矩阵的维数很大也很稀疏. 由此, 有学者提出负多项分布、狄利克雷负多项分布、狄利克雷多项分布和广义狄利克雷多项分布. 本文分别介绍了以上几种分布的分布密度、期望和协方差矩阵, 并利用统一的方法给出了相应的证明, 指出各分布的特点、适合的数据类型和存在的缺陷. 根据狄利克雷树分布和多项分布, 我们提出了狄利克雷树多项分布, 并通过相同的方法理论推导展现了该分布相比于其他分布的优势. 同时, 运用R软件, 分别对多种分布进行了数值模拟, 比较样本数据和理论数据, 表明拟合结果吻合, 与理论推导的结论相符. 最后, 利用一组实验者口咽微生物组的数据, 证明了狄利克雷树多项分布的拟合效果最佳.

\end{abstract}

\begin{englishabstract}{\ Dirichlet Tree Multinomial Distribution, \ expextation, \ covarience, \ correlation, \ numerical simulation}

The common distribution of multivariate counting data is multinomial distribution, but the data types that can be described by this distribution are relatively simple and the distribution itself is not flexible enough. In real life, the data is often complex and diverse, especially in some microbiome data. The dimensionality of the data matrix is ​​large and sparse. Therefore, multinomial distribution, Dirichlet negative multinomial distribution, Dirichlet multinomial distribution and generalized Dirichlet multinomial distribution are proposed. The distribution density, expectation and covariance matrices of the above distributions, and the corresponding proofs are given by the same method, indicating the characteristics of each distribution, the appropriate data types and the existing defects. According to the Dirichlet tree distribution and multinomial distribution, we propose a Dirichlet tree multinomial distribution, and demonstrate the advantages of this distribution compared to other distributions by the same theory. At the same time, using R software, numerical simulation of various distributions, comparison of samples data and theoretical data indicate that the fitting results are consistent. Finally, using a set of data from a group of oropharyngeal microbes, it is proved that Dirichlet tree multinomial distribution fits the data best.

\end{englishabstract}

\tableofcontents

% \begin{terminology}

% \begin{table}[h]

% \renewcommand\arraystretch{1.5}

% %\Large

% \begin{tabular}{gt;{\LARGE}m{0.2\textwidth} lt;{\centering}m{0.7\textwidth}}

% a amp; 如同汉字起源于象形,拉丁字母表中的每个字母一开始都是描摹某种动物或物体形状的图画\\

% bamp;和A一样,字母B也可以追溯到古代腓尼基。在腓尼基字母表中B叫beth,代表房屋,在希伯来语中B也叫beth,也含房屋之意。\\

% camp; 字母C在腓尼基人的文字中叫gimel,代表骆驼。它在字母表中的排列顺序和希腊字母Γ(gamma)相同,实际上其字形是从后者演变而来的。C在罗马数字中表示100。\\

% damp;D在古时是描摹拱门或门的形状而成的象形符号,在古代腓尼基语和希伯来语中叫做daleth,是“门”的意思,相当于希腊字母Δ(delta)。\\

% \end{tabular}

% %\caption{my table}

% \end{table}

% \end{terminology}

\begin{Main} % 开始正文

\chapter{绪论}

\section{计数数据}

\par{在我们的日常生活中, 会出现各种类型的离散型数据, 其中主要可以分为计数型数据(Count Data)和计量型数据(Variables Data). 计数型数据是用具体的数值来刻画某些事件, 比如学生的成绩、店铺的销量、微生物的丰度等, 计量型数据通常是用是/否来刻画某些事件, 例如某一商品合格率的检测、某一地区的患病率等. 相比于计量型数据, 计数型数据能够更准确地表现数据的特征, 从而便于接下来的记录和分析. 对于已有的数据, 需要建立模型来讨论其性质. 于是, 利用数据的分布, 可以更直观地分析数据. 在微生物组学数据中, 大部分的数据是处于过度离散或零膨胀现象. 零膨胀是指零观测的比例远超过了拟合分布所允许的范围, 即在零处发生了膨胀\cite{零膨胀}. 如果用一般的离散数据分布, 拟合效果差距很大. 所以, 需要考虑更加复杂的分布形式. }

\section{离散多元分布}

\par{

在《概率论与数理统计》课程中, 我们学过几种基本的数据分布类型: 多项分布、狄利克雷(Dirichlet)分布、负二项分布. 多项分布是二项分布的一个推广, 是指做n次实验时, 分别出现某几种情况的概率; 狄利克雷分布又称为多元$\beta$分布, 是$\beta$分布在高维情形下的一种推广. 在贝叶斯推断中, 狄利克雷分布是多项分布的共轭先验分布

(共轭先验分布是指, 在贝叶斯统计中, 后验分布和先验分布属于同一类分布, 则先验分布和后验分布称为共轭分布); 负二项分布是统计学上常见的一种分布, 它主要是指, 某一系列实验成功的概率是恒定的, 刚好在某一次实验出现第r次成功. 负多项分布是负二项分布在多维上的一个推广, 实验里不仅仅只有成功和失败两种结果, 会有多种结果, 每种结果出现的概率恒定. 当r为整数时, 负二项分布又被称作帕斯卡分布. }

\par{

离散多元分布涵盖了过去四分之一个世纪在理论、方法、计算程序以及各种学科中, 该分布的应用在该领域产生的所有重大进展, 涵盖的分布包括多项分布、二项分布、负二项分布、泊松分布、幂级数分布、超几何分布等分布族. 每个分布都存在其自身的特征和适用情形, 以及根据分布本身性质延伸产生的分布. }

\par{

离散多元分布是统计学、数学、计算机科学、工程学、医学和生物科学领域的研究人员、专业人员、从业人员和研究生的重要工作资源. 在日常的工作、学习、研究中, 需要找到一个能刻画高离散度、非确定相关性数据的分布, 可以给数据分析过程带来便利. }

\section{文献综述}

\par{

对于各类分布的研究, Mosimann在1963年针对反向采样花粉计数中复合负多项分布及相关性进行了研究\cite{Mosimann}. 通过改变参数的分布形式, 他首先由负多项分布, 引申到$\beta$复合负多项分布, 再拓展到广义的复合负多项分布, 分别计算了这三种分布的均值和协方差, 并对多项和反多项抽样中人口相关系数作出比较. 他将$\beta$复合负多项分布的模型应用于花粉计数里. 通过将伽马分布与另一个伽马分布混合, Dubey得到了复合伽玛分布\cite{Dubey}. 他获得其两个参数的准确矩估计(倾向于二元正态分布), 同时推出包含二元概率密度函数, 条件期望, 条件方差和乘积矩相关系数的表达式. 最后, 复合伽马分布的所有参数都以两种不同方式根据随机变量函数矩的函数明确表示. Goodhardt在1984年提出, Dirichlet分布是购买率和品牌选择的随机模型\cite{Good}, 它简洁地整合了广泛的已经建立的经验规律. 微生物组研究的一个目标是将微生物组组合物与环境协变量联系起来. Chen等人使用Dirichlet-multinomial(DM)回归模型对每个微生物组样品的细菌分类群计数进行建模\cite{Chen}, 以便考虑观察计数的过度离散. 为了解决问题的高维度, 他们开发了一种惩罚似然方法来估计回归参数.}

\par{

Daniel在2013年, 将狄利克雷负多项回归用于过度分散的计数数据\cite{Daniel}. 他给出了狄利克雷负多项分布的产生方法, 根据Mosimann的文章总结出均值和协方差的形式. 模拟研究表明, 即使在某些错误指定的情况下, 基于狄利克雷负多项分布的回归模型的中值绝对误差也小于广义估计式, 当一个类中观测值之间的相关性较高时, 其具有特别明显的改善. 他通过临床实验的研究说明了解释变量的效应与差异来源之间的估计. }

\par{但这两篇文章都没有针对均值和协方差给出相应的证明. 在2016年, 通过发现多项logit模型分析来自最近的RNA-seq技术的计数数据导致假设检验中会出现严重错误, Yiwen Zhang等人提出了多种刻画离散型计数数据的分布\cite{Zhang}: 多项分布、狄利克雷多项分布、负多项分布、广义狄利克雷负多项分布. 其中后三种分布是通过一些基本分布组合形成, 这也是本文的基本思想. 目前的文献缺乏对这些模型的处理, 作者也没有具体给出各分布性质的证明. 但通过比较均值和协方差的形式, 这些分布, 特别是广义狄利克雷负多项分布更具有灵活性. 他们将这些回归模型在模拟和真实数据上都进行了比较.

}

\par{Minka在1999年讨论了狄利克雷树分布的基本形式和相关性质, 给出了不同树结构的包含关系, 并给出了树的概率的独立关系\cite{Minka1}. 通过服从多项分布的观察值可以得到后验概率, 论据和预测的密度. 在2000年, Minka提出一个用于狄利克雷分布模型或狄利克雷多项分布模型中获得参数估计的简单且有效的迭代方案: 在每种情况下, 提供定点迭代和Newton-Raphson(或广义Newton-Raphson)迭代\cite{Minka2}. }

\par{Dennis在1996年提出具有由独立子实验或试验序列组成的树状结构的统计实验的贝叶斯分析\cite{Dennis}. 这类问题由被视为由具有未知结果概率的独立广义伯努利试验的线性序列构成的复合伯努利实验组成, 并假设这些实验的复制实例遵循能够产生完整和/或部分观察的多项采样方案. 从统计分布理论的角度来看, 这类实验的前后分析产生了一个新的离散多元分布族, 即超复合多项分布. 该模型用于对患有急性心肌梗死(心脏病发作)医疗预测, 即早期死亡或存活. }

\par{

剩余内容已隐藏,请支付后下载全文,论文总字数:57905字

您需要先支付 80元 才能查看全部内容!立即支付

该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;