拉曼信号大数据挖掘及智能分析

 2022-08-14 09:45:31

论文总字数:27052字

摘 要

拉曼光谱技术已应用于DNA中碱基序列的测量,但是当处理大量DNA碱基拉曼光谱信号时,需要一种快速准确的数据挖掘技术,从拉曼光谱中获取研究对象DNA中的关键碱基信息。

本文主要分析研究了DNA中四类碱基拉曼光谱的数据预处理、寻峰方法、定性分析与定量分析方法等。

(1)主要研究了DNA四类碱基拉曼光谱技术的数据预处理方法,数据预处理主要包括碱基拉曼光谱的去噪声、去基线、归一化等。在降噪处理时,将Savitzky-Golay滤波平滑去噪法、小波阈值滤波去燥法等常用去噪法进行仿真比较,通过MATLAB软件所进行的实验表明,当采用小波阈值去噪,且采用sqtwolog阈值时去噪效果最佳。

(2)研究了拉曼光谱寻峰方法,对比了直接比较法、连续小波变换法以及高斯拟合法,其中直接对比法最为简洁实用。

(3)主要对DNA四类碱基拉曼光谱进行定性分类。通过主成分分析、线性判别技术、支持向量机等判别方法分别对DNA中的四类碱基进行判别分类。其中识别准确率最高的是支持向量机分类法,其具有最佳的匹配效果。

(4)对四类碱基拉曼光谱进行定量分析。主要通过多元线性回归法对混合的仿真碱基拉曼光谱进行定量分析,该方法能够较好得分析出各种碱基的含量。

关键词:拉曼光谱,数据处理,寻峰,定性分类,定量分析

Abstract

Raman spectroscopy has been applied to the measurement of nucleobase sequences in DNA. But when dealing with a large number of Raman spectrum signals of nucleobases, a fast and accurate data mining technique is needed to obtain the key information from the Raman spectrum in the DNA.

This paper mainly analyzes the data pretreatment method, peak seeking method, qualitative analysis and quantitative analysis methods of Raman spectral in four kinds of nucleobases.

(1) The data pretreatment methods for the Raman spectral of four nucleobases in DNA were studied. The data preprocessing mainly included the denoising, baselining and normalization. In the process of noise reduction, Savitzky-Golay filter, wavelet thresholding dewetting and other commonly used denoising methods are used for simulation and comparison. The experiments conducted by MATLAB show that when the wavelet threshold is used for denoising, the effect is the best.

(2) The peak finding method of Raman spectrum was studied. The direct comparison method, continuous wavelet transform method and Gaussian fitting method were compared. Among them, the direct comparison method was the most simple and practical.

(3) Qualitative classification methods of the four nucleobases Raman spectral were studied. The four types of nucleobases in DNA were discriminated and classified by discriminating methods such as principal component analysis, linear discriminant technique and support vector machine. The highest recognition accuracy is the support vector machine classification method, which has the best matching effect.

(4) Quantitative analysis of four types of nucleobases Raman spectral was studied. The mixed base Raman spectral were quantitatively analyzed by multiple linear regression. This method can analyze the content of various nucleobases.

KEY WORDS: raman spectroscopy, data processing, peak searching,qualitative classification, quantitative analysis

目录

摘要 I

Abstract II

第一章 绪论 1

1.1 课题研究背景及意义 1

1.2 国内外研究现状 1

1.3 拉曼光谱分析技术简介 2

1.3.1 拉曼光谱分析法原理 2

1.3.2 拉曼光谱优点 3

1.4 论文主要内容与结构安排 4

第二章 拉曼光谱数据预处理 5

2.1 引言 5

2.2 去噪声方法 5

2.2.1 滑动窗口平均法 5

2.2.2 滑动窗口中位值法 6

2.2.3 Savitzky-Golay滤波法 7

2.2.4 小波阈值滤波法 8

2.2.5 去噪性能比较 9

2.3 去基线方法 11

2.3.1 基线估计与稀疏去噪(BEADS) 12

2.3.2 基线估计参数选择 12

2.4 本章小结 13

第三章 拉曼光谱寻峰方法 14

3.1 引言 14

3.2 直接比较法 14

3.3 连续小波变换 16

3.3.1 小波分析简介 16

3.3.2 连续小波变换识别法 16

3.4 高斯函数拟合寻峰法 17

3.5 本章小结 18

第四章 拉曼光谱定性分类方法 19

4.1 引言 19

4.2 直接判别法 19

4.3 主成分分析类中心最小距离法 21

4.4 线性判别分析法 22

4.5 误差反向传播算法(BP神经网络)分类法 23

4.6 概率神经网络(PNN)分类法 24

4.7 支持向量机(SVM)分类法 25

4.8 本章小结 27

第五章 拉曼光谱定量分析技术 28

5.1 引言 28

5.2 多元线性回归分析法 28

5.3 本章小结 29

第六章 总结与展望 30

6.1 总结 30

6.2 研究展望 30

致谢 31

参考文献 32

绪论

课题研究背景及意义

1928年,C. V. Raman首先在CCL4光谱中发现光在散射时,除了弹性散射(瑞利散射),还会与电子发生非弹性散射(斯托克斯与反斯托克斯散射)。[1] 这种效应被称为拉曼效应,并于1928年被钱德拉塞卡拉拉曼爵士发现。与今天不同,他使用过滤光束作为激发源,而他的眼睛作为频移光的探测器。拉曼于1932年因此发现获得诺贝尔奖。

拉曼光谱是一种共振光谱,故而其与入射光频率无关。拉曼光谱仅由物质的特有属性决定,故而不同物质的拉曼光谱具有各自的独特性。因此拉曼光谱与其他光谱相比,如荧光、红外等等,更能够反映物质的结构等信息。 [2] 拉曼效应的巨大重要性在于,激发光子和拉曼散射光子之间的能量转换是由分子振动的激发(或湮没)引起的。这种能量转换是特征性的,因此是散射过程中将涉及分子类型和配位的指纹特性。

剩余内容已隐藏,请支付后下载全文,论文总字数:27052字

您需要先支付 80元 才能查看全部内容!立即支付

该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;