分类算法在生物信息学中的应用研究

 2023-07-31 08:34:59

论文总字数:15561字

摘 要

在生物信息学的研究过程中最需要做的就是有大量基础信息的支撑,特别是那些有价值的信息。文章在进行研究的时候主要的研究对象是基因表达谱以及信号肽。在实际的研究过程要找到切实有效的分类算法。

在实际的临床医学研究上面基因表达谱是一种又快又有效的诊断肿瘤的方法,主要的原因就是基因表达谱的特点是高维数、小样本以及噪音大,这些特点的存在就使得在分类上具有很大的困难。在基因治疗方面的研究上信号肽已然发挥着越来越重要的作用,但是随着新蛋白质在后基因时代的快速发展也就使得新信号肽序列识别成为了生物医学工程研究的当务之急。在进行实际的研究当中提出了一个非常重要的预测方法就是在贝叶斯推理网络基础上的Singnal--BNF的预测方法。这个算法在输入的时候就是要将许多个不同特点的数据集合作为基础。其次就是在结果的产生上面要不断的使权重投票系统与贝叶斯基分类器两者相互融合产生不一样的结果。

关键词:贝叶斯分类器 基因表达普 信号肽 Singnal—BNF

Abstract: in the process of bioinformatics, most need to do is to support a large number of basic information, especially those with valuable information. In the study, the main research object is the gene expression profile and signal peptide. In the actual research process to find effective classification algorithm.

In actual clinical medical research on gene expression profile is a fast and effective diagnostic method, the main reason is the gene expression spectrum characteristics of high dimensions, small samples and noise, the existence of these characteristics makes has great difficulty in classification. In gene therapy research on signal peptide already plays a more and more important role, but with the rapid development of new proteins in the post genome ra also makes new signal peptide sequence identification has become the urgent matter of the biomedical engineering research. A very important forecasting method is proposed in this study, which is based on Bayesian inference network Singnal--BNF. This algorithm is based on the data set of many different features in the input. The second is that the results of the above to continue to make the weight of the voting system and the Bias Ki classifier fusion of the two are not the same results.

Keyword: Bias classifier gene expression signal peptide Singnal--BNF

1 绪论

1.1 生物信息学

在探索到的生命体当中大多数都是由细胞来构成的,所以说在生命科学的研究上面不只是要对宏观事物的探索同时也是对微观事物的观察。在实际的观察当中会找到细胞当中在很多共性,细胞都是经历了有产生直至死亡的一个过程,并且在这个过程当中每个细胞都经历了自身的完整复制。

在对于细胞的研究当中可以看到细胞在表面上是非常复杂的,但是在其中也是存在很多的相类似的组织规则的,比如DNA、RNA以及蛋白质。这三者就是构成一个生命体的最为重要的元素。在信息科学技术不断发展的今天,对于生物学数据的研究和存储也有了较大的完善。人类基因的测序工作也随着HGP计划的完成而完成了,人们对于基因的认识也逐渐的发展到了一个崭新的高度。当然随着新的生物学技术的发展,数据的数量也是在逐渐增加的,所以在数据的处理上和数据关系的挖掘上尤为重要。

生命科学的研究是一个逐步深入的过程,在研究期间大量的数据会出现在生物数据库当中,这样会给数据的处理产生非常大的压力,针对这样的情况存在就会有新的应对方式来进行数据的处理,比如自动分析这一模式。这样综合信息的处理就会产生一门新的学科就是生物信息学。

1.2 课题研究意义

在对生物信息数据的研究上面数据数量的增长是一个不容忽视的问题,在大量的数据中找到切实有用的数据是一个非常复杂的过程,所以在实际的研究过程中这也就成为了一个非常需要去解决的问题。这一问题的就解决对于数据的挖掘和利用有着很深刻的意义。文章主要的研究对象就是生物信息学中的基因表达谱以以及信号肽,通过对于两者的研究可以十分有效的处理分析过程中产生的海量数据,对于数据的准确性有着较大的意义。信号肽在新合成蛋白质可以帮助其到达目标所在的位置,产生较大的指导作用,信号肽序列是有一定的规则的,一旦有所改变那就意味着将会有各种各样的疾病产生。对于信号肽的研究已然成为了现代分子细胞学的研究的重要组成部分。

2 研究对象和模式识别基本理论

2.1 本章主要研究对象

2.1.1 基因表达谱

分子生物学在发展中是需要大量的数据来作为发展基础的而DNA微阵列技术的不断完善就为分子生物学的研究提供了可能。在实质性的研究中对于基因表达谱的获得是需要进行基因芯片的实验的。在所研究的基因芯片上面要做的就是将每一个基因的表达值进行监测,然后将每个数据进行适当的组合,这样才会最终得到想要的研究结果。

在以往的文献研究资料也有对基因表达谱进行研究的,是对基因表达谱进行描述的,在整个的基因表达谱中要看成是一个统一的集合,在整个的集合当中要将所有的基因表达值进行设定,在基因表达谱中每一行都是代表着不同样本的全部基因的表达值,而每一列则是代表着不同的基因在在不同的环境也就是不同的样本中的表达值。

在对基因表达谱的研究和分析中可以知道存在其中的数据的特点是噪声大、数据的规模比较大并且数据呈现非线性的特点。这些特点的存在就给数据的分析研究论证带来了较大的困难,并且会对数据维数的研究带来了非常大的影响。在进行实质研究的过程中会出现基因数量大大的超过样本数量这样的问题,所以在进行研究的过程中要十分的注意基因表达谱所具有的特点。

2.1.2 蛋白质序列以及信号肽

蛋白质是组成生物体的最重要的部分,其主要的构成部分就是氨基酸。氨基酸在进行连接的时候是以不同的排列顺序、种类和数目进行的,不同的方式和组合形式就会存在着很大的差异,也就会造成众多种类的蛋白质。通过研究发现每一个氨基酸构成上是由一个中心碳原子和四个原子组成的。这样就会导致了氨基酸种类的多样性,发展至今就有二十多种氨基酸,比如丙氨酸、谷氨酸、丝氨酸以及苏氨酸等等。

在肽键的形成上面主要是由一个氨基酸的氨基和另一条氨基酸的羧基进行相互的作用从而进行脱水分子的处理而形成的。将这些肽键进行有效的链接就可以组成一条比较完整的肽链。信号肽则主要指的就是在分泌蛋白质的序列当中进行对新合成分泌蛋白质跨膜转移指导的特定序列。信号肽这一概念的提出之后就使得越来越多的人了解和认识了信号肽,信号肽在提出的时候发挥的功用就是可以非常准确的找到细胞膜相应的位置,与此同时信号肽要与细胞膜上的受体进行结合。

就当前发展的情况来看,在国际上比较有代表性的蛋白质序列的数据库是Uniprot。这一个数据库在国际范围上有着很高的声誉,并且它是一个非常高质并且在访问上没有限制的免费的蛋白质序列和功能信息的数据库。在这个数据库当中有四个非常重要的组成部分,分别是UniProtKB、UniParc、UniRef以及UniMES。第一个数据库主要就是蛋白质数据库,在组成上是由两个子数据库组成的。在数据库所包含的数据中数据的数目是呈现上升趋势的。UniParc这个数据库是一个比较全面并且不包含多余冗沉的蛋白质序列数据库,在这个数据库中所包含的数据都是非常主流的并且是可以公开使用的,这些数据在进行存储的时候只允许进行一次存储,并且是有一个非常稳定的标志的。相对于前两个数据库来讲UniRef这一数据库则显得复杂和冗余的多。在子数据库的数目上就比前两个数据库要多。UniMES数据库则是有着自身专门的功用的,主要就是用来存储宏基因组以及环境数据。在四个数据系统中有一个很重要的特点就是UniMES中的存储数据是不在UniProtKB和UniRef中的,但是会在UniParc数据库中。

2.2 模式识别基础

在现实的生活中是人们时时刻刻在进行模式识别这一项工作的。身边周围的事物都是需要来进行识别的,比如身边的人、身边的声音以及身边的物体。在最先进行模式识别的时候人们是没有很强的意识的,所以随着计算机技术的发展,人们不断的对其进行研究和分析,希望可以借助计算机技术的优势来对智能行为进行研究,还有就是要对模式识别这一应用在实际的运行上需要的解决的问题进行解决。

模式在内容的包括上面是有很多的方面的,有着十分丰富的内涵,有的信息在获取上面是非常直接的,但是有的间接获得的。模式识别是隶属于人工智能范畴的,在进行操作的时候主要是用机器来完成有效的人类智能活动行为。在进行模式识别的时候最重要的目的就是要对模式进行分类,在整个的过程中要完成的就是模式的自动识别以及评价。在模式识别理论的研究和分析上在众多的领域中都是有着很好的应用的,在模式识别的过程首先要做的就是建立一个数据库的集合,利用原有的知识来进行分类器的设计从而建立一个适合的判别模型。其次要做得就是在建立模型的基础上完成对未知样本的分类识别。这样会在整个的运作过程能够中依靠样本自身的特点来进行模式的识别。在模式识别的分类上面主要是有两种,一种是有监督的识别模式,另一种是无监督的识别模式。在模式识别的问题上主要的是包括两分类问题以及聚类问题,两者相比较而言要为重要的就是分类问题,在进行分类的时候要分为两个阶段来进行,第一个阶段是在训练数据的基础上面完成对分类函数的建立,第二个阶段则是分类阶段,在这个阶段中要做的就是对测试集进行相对的独立,然后进行预测集的预测类标号。

在进行分类算法的讨论上面是在很多理论和思想方法的研究的,主要的思想有线性判别分析、决策树、贝叶斯分类算法以及人工神经网络、支持向量机等等。

2.3 本章小结

本章主要的研究内容就是简单的介绍了一些基础的预备知识,主要的目的就是为下文的研究论证提供比较科学的理论基础。对于基因表达谱的数据描述方式也是进行了简单的介绍,随后还对常用的四个数据库进行了简单的介绍。对于基础知识的介绍可以很好的为下文的研究做好铺垫。

3 基于贝叶斯分类器的结肠癌数据分类

在阶段的医学研究和生物信息学的研究中机器学习已经成为了一个非常重要的应用方式,与传统的方式进行比较这一方式可以十分有效的挖掘到准确的信息,在信息的处理上面也是可以进行有效的结合的。分类基因表达谱数据这项工作是一项极具挑战的工作,主要因为因为基因表达谱所存在的高维数、小样本以及噪音大的特点决定的。

3.1 贝叶斯分类算法

3.1.1 贝叶斯网络

贝叶斯分类算法主要就是在统计学当中贝叶斯原理的基础上的算法,主要的作用就是对特定类别的概率进行恰当的描述。在贝叶斯分类算法当中有一种非常简单的算法就是朴素贝叶斯分类算法,这个算法的适用于比较大型的数据库,并且它的特点是速度比较快,并且有一定的准确性。这一算法成立的条件就是要求类条件独立。换一句话讲就是需要在属性之间是要求独立存在的,但是在实际的研究情况下这样的条件是很难达到的,所以说在这个简单算法的使用上面是存在着一定的限制的。在真正的实践过程中不同的属性之间有着很大关联性就是有着较强的依赖性,对于这种依赖性关系的最后的反映就是贝叶斯网络。所以这也就是贝叶斯网络适合本文的研究,贝叶斯网络在进行应用的过程当中是允许变量之间存在相互依赖的关系的,也就是为变量的发展提供了很好的变量概率依赖的图形式网络。

贝叶斯网络是在上世纪的八十年代中期被提出来的,在理论和文献研究中可以找到它的踪迹的,应用的范围也是非常广泛的。其在分类过程中的应用主要是分为两个阶段的,第一个阶段就是对贝叶斯网络进行学习和训练的阶段,主要的目的就是可以找到一个非常完善 的贝叶斯网络,换一句话讲就是要当我们不知道贝叶斯网络的时候需要做的就是将训练的数据来进行验证从而可以更好的估计贝叶斯网络的结构以及条件的概率分配状况。

在进行贝叶斯网络学习上主要是可以分为两个部分来进行学习的,第一个部分是结构上的学习,第二个部分是参数的学习。在这两个部分当中最为核心的部分是结构上的学习。进行贝叶斯网络学习的时候主要是有两种方法来进行有效的学习,第一种是基于独立性测试的方法,第二种是基于搜索的方法。第一种方法主要的优点是对误差的非常的敏感,而第二种方法在搜索策略进行搜索的基础上可以得到比较准确性较高的网络结构,这一网络结构存在着空间结构庞大的特点,这也就导致了在实际的操作过程中普遍使用的方法就是启发式搜索算法。

3.1.2 贝叶斯分类器

贝叶斯分类器是一种较为特殊的贝叶斯网络,主要的功用就是进行分类。在训练数据集的组成上面主要是由元组来组成,在每个元祖的组成上面是由相关字段的值来组成的,而这些字段别称为属性。在贝叶斯分类器中有三种是非常具有代表性的,这三种分别是朴素贝叶斯分类器、树扩展贝叶斯分类器和贝叶斯网络分类器。第一种分类器的特点是结构非常的简单,有着良好的性能同时也能到达很好的分类效果。在进行实践应用的时候是有一定的限制的主要的原因就是在各个属性变量相互条件独立的假设。所以就需要进行一定的改善,让它的特点不变而使得独立性有所降低。

3.2 肿瘤基因表达谱分类模型

3.2.1 肿瘤基因表达谱分类模型

在进行对白血病和直肠癌的基因表达谱数据分类的研究上有很多的学者进行了提出了很多有效的方法和手段,在算法模型的描述上面主要有以下几个步骤,第一个步骤是基因的排序和选择,在这个步骤中首先要做的就是用Relief来计算每一个基因的权值,然后要做的就是按照这些有效的权值来进行排序。第二个步骤就是DCT或者是DFT。使用两者的原因就是可以很好对基因当中那些繁复的部分进行消除。第三个步骤就是相对熵RE排序。在这个步骤中首先要做的就是对每个变换系数的相对熵进行有效的计算,其次要做得就是根据计算所得到的结果来对系数进行降序排序。第四个步骤是对特征的提取。第五个步骤则是训练分类模型和评估分类模型。在训练分类模型上面要用到SVM或者是KNN分类器,同时用测试集来对分类模型的分类准确率进行有效的评估。

3.2.2 改善的肿瘤基因表达谱分类模型

文章在进行研究的时候改进了上述的分类模型,在进行分类的时候采取了贝叶斯分类器而不是原有的分类器。在进行改善的过程中最重要的一个步骤就是对于参数的寻找,因为对于参数的寻找是一件非常消耗时间的任务,并且在进行参数的寻找的过程当中是没有理论来进行有效的指导的,只能是通过非常传统的方式也就是实验的方式来获取有效的资源。在以往的理论研究中在实验的基础上就得到了最佳的参数组合。所以为了避免重复的工作在研究中要做的就是对贝叶斯分类器的参数进行测试。

3.3 实验分析

3.3.1 数据来源和实验方法

实验数据采用DNA微阵列数据集:结肠癌数据集,该数据集由Alon等人在研究中提出。该数据集一共有62个样本,22个为正常样本,40个为肿瘤样本,每个样本2000个基因表达数据。在进行实验的过程当中主要利用的是贝叶斯分类器分类数据集的方法,还利用的是4-折交叉验证法来进行验证。

3.3.2 实验结果与分析

分类准确率如表3-1所示:

表3-1分类准确率

分类准确率(%)

主分量数

最大值

均值

标准差

3

91.56

88.80

1.43

4

91.56

88.78

1.47

5

91.56

88.80

1.43

由实验结果可知,贝叶斯分类效果稳定,可以获得较高的分类准确率。

3.4 本章小结

本章主要研究的内容是在原有的文献资料的基础上进行研究的,对肿瘤基因表达谱的分类模型进行较大改进与完善,在此基础上用贝叶斯分类器来作为训练分类器进行训练,并且直肠癌的基因表达谱作为实验的数据进行了有效的实验,在实验结果的用得到上面使用了4-折交叉验证法来进行验证,这样会有效的提高分类的准确率。准确率的提高在一方面也反映出了一个较为明显的劣势就是精确度不是特别的高。贝叶斯分类器在实际的应用过程中特别是对基因表达谱数据的分类上面是非常有效率的,是非常切实有效的一种分类方法。贝叶斯分类器有一个非常大的优点就是有着较强的稳定性,并且这一稳定性是在变换系数情况下体现的尤为特殊,这一特点也就使得在基因表达数据分类上面有着较为创新的思路。

4 Signal-BNF:一个用于预测信号肽的贝叶斯网络融合方法

本章在进行分析研究的过程中主要是在贝叶斯网络算法的基础上提出的一个比较新的预测方法,主要用来预测的就是N-端信号肽以及剪切位点。贝叶斯网络算法已经得到了很多的实践机会,特别是在生物信息学中,解决了很多的问题。这一方法与其他的方法是有着很大的不同的,它在本质上是属于一种推理方法,是一种对数据推理的方法。在进行计算的时候是通过众多的相关证据和观察数据来进行对概率的计算的,基于这一特点就十分的适合本文的研究任务。文章在进行研究的时候主要使用的是多分类器集成系统来进行有效的分类,这样可以十分有效的提高预测的准确率。在进行预测的时候首先是要将不同特征的数据集输入到贝叶斯分类器上,这样就会产生很多个不一样的贝叶斯分类器。其次要做得就是要将权重投票系统和贝叶斯基分类器进行有效的融合,这样就会产生不同的结果,进而可以得到最终想要的结果。

4.1 预处理数据集

4.1.1 实验数据集

在实验数据集的收集上面主要使用的是将文献资料当中的数据集,在这些数据集当中主要包含的内容是来来自不同的物种的,在分泌蛋白质序列和非分泌蛋白质序列上的数据提取上面也是有着六个物种的,这六个物种分别是人类、植物、动物、真核生物、革兰氏阳性菌以及革兰氏阴性菌。这六种生物的蛋白质序列表如下表4-1所示:

表4-1 六个不同物种数据集中蛋白质序列数量

物种

分泌蛋白质序列

非分泌蛋白质

序列总数量

序列数量

序列数量

人类

894

1129

2203

植物

338

559

897

动物

1435

1762

3197

真核生物

635

785

1420

革兰氏阳性菌

269

356

625

革兰氏阴性菌

613

721

1334

4.1.2 蛋白质序列编码

通过对大量实验数据的分析和研究,在大多数的数据当中进行数据分类是需要一定的分类数据的,文章在进行研究过程中所使用的贝叶斯网络分类器这一方式,在进行研究的时候需要的也是要将离散型数据值来进行输入。因此,我们需要做的就是要将蛋白质中的氨基酸符号进行转换,转换成离散数值型的数据。在进行不同的编码之后会有不同的编码方案进行编码。

剩余内容已隐藏,请支付后下载全文,论文总字数:15561字

您需要先支付 80元 才能查看全部内容!立即支付

该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;