论文总字数:23554字
摘 要
乳腺X线摄影(mammography),是当前医生帮助患者尽早识别乳腺癌的重要途径。但是由于处理数量大,病变细节微小,对于乳腺X线摄影的错误诊断往往较为严重。实现对于乳腺X线摄影的计算机自动识别方法将有效的帮助医疗人员确定病例,并有效减少误诊率,这对于当今医学界有着重要的影响。
基于MIAS mammography提供的乳腺X线影像数据应用普通机器学习与深度学习两类不同的模型来实现乳腺X线摄影的自动诊断识别,并对比分析了其分类结果。
首先,在机器学习算法中,选择了kNN与随机森林分类算法两种较为基础的机器学习算法进行实现。在数据输入方面,由于普通机器学习算法对输入数据的依赖性,我们选用了两种方法进行预处理:其一,直接将数据进行简单去噪、降维、中心化处理;其二,在一的基础上针对性地选择碎片化方式拆分原图像。在最原始的处理之下,kNN分类器几乎将所有分类结果都判定为了正常类,随机森林较好,但对于非正常类的判定准确率却也只有20%左右。同时,在碎片化处理之后,对于非正常类的判定二者都达到了60%左右,有了很大提升。
随后,在深度学习方面,应用VGG16卷积神经网络实现相同任务,卷积神经网络在处理图像数据方面明显优于kNN和随机森林方法,平均准确度达到72%,并且对于6类非NORM类别的召回率基本上达到了60%-80%。确定了深度学习在乳腺癌自动诊断方面的可行性。
关键词:kNN,随机森林,碎片化处理,VGG16卷积神经网络
Abstract
Mammography is an important way for doctors to help patients identify breast cancer as early as possible. However, due to the large number of treatments and the small details of the lesions, the misdiagnosis of mammography is often serious. Achieving a computerized automatic identification method for mammography will effectively help medical personnel determine cases and effectively reduce the rate of misdiagnosis, which has an important impact on the medical community today.
Based on the mammography data provided by MIAS mammography, this paper applies two different models of general machine learning and deep learning to realize the automatic diagnosis and identification of mammography, and compares the classification results.
Firstly, in the machine learning algorithm, this paper chooses two basic machine learning algorithms, kNN and random forest classification algorithm. In terms of data input, due to the dependence of ordinary machine learning algorithms on input data, we have chosen two methods for preprocessing: first, the data is directly denoised, reduced in dimension, and centralized; second, in one Based on the targeted selection of the fragmentation method to split the original image. Under the most primitive processing, the kNN classifier judges all the classification results as normal classes, and the random forest is better, but the accuracy of the judgment for the abnormal class is only about 20%. At the same time, after the fragmentation process, the determination of the abnormal class has reached about 60%, which is greatly improved.
Subsequently, in terms of deep learning, this paper applies VGG16 convolutional neural network to achieve the same task. Convolutional neural network is superior to kNN and random forest method in processing image data, with an average accuracy of 72%, and for 6 non-NORM categories. The recall rate has basically reached 60%-80%. The feasibility of deep learning in the automatic diagnosis of breast cancer was determined.
KEY WORDS: kNN, Random forest, fragmentation, VGG16
目 录
摘 要 I
Abstract II
第一章 绪论 1
1.1研究背景 1
1.2研究现状 1
1.3主要内容 2
第二章 k-最近邻算法与随机森林分类模型 3
2.1算法原理 3
2.1.1 kNN分类算法 3
2.1.2 随机森林分类算法 4
2.2样本数据 5
2.2.1 数据库介绍 5
2.2.2 数据预处理 6
2.3模型评价指标 8
2.4实验结果分析 9
2.4.1 kNN算法与随机森林分类算法的原始结果 9
2.4.2 优化后的分类算法(碎片式处理方法) 11
第三章 VGG16卷积神经网络算法 13
3.1卷积神经网络理论基础 13
3.1.1 卷积层 13
3.1.2 池化层 14
3.1.3 全连接层 14
3.2模型选择 14
3.2.1 注意力模型 14
3.2.2 归一化指数分类器(Soft-max Classifier) 15
3.2.3 交叉熵损失函数 15
3.2.4 Adam优化器 16
3.2.5 VGG16卷积神经网络 17
3.3计算流程 17
3.4试验结果 19
3.5结果对比分析 19
参考文献 21
致 谢 23
第一章 绪论
1.1研究背景
世界上,大约八分之一的女性会在其一生中的某个时刻患上乳腺癌。预计 2019 年将有 40,000 多名妇女死于这种疾病。乳腺X线摄影(mammography),是当前医生帮助患者尽早识别这种癌症的重要途径。有时,他们能够在身体感觉到异常两年之前识别疾病,这对减少乳腺癌导致的死亡率至关重要。乳腺X线摄影主要应用于两个方面:筛查性乳腺摄影和诊断性乳腺摄影。通常先实施筛查性乳腺摄影以检查是否有任何异常,如果发现异常,则需要进一步检查并可能进行后续诊断测试。我们这里将要研究的是筛查性乳腺摄影,即通过乳腺摄影照片判断潜在患者是否存在患病危险。据历史资料显示,近五分之一的筛查将不会检测到乳腺癌的存在,这将导致假阴性。同时估计表明,约有10-20%正常的乳腺X线摄影被错误地诊断为存在异常部分,从而导致假阳性。由于这种高假阳性的存在,将近一半的女性在10年内每年接受一次乳房检查,但仍会得到不正确的阳性检测结果。同时较高的假阴性不仅会导致医疗保健系统的效率低下,而且还会导致被错误诊断患有癌症的女性产生情绪压力和焦虑。
上述的原因导致了我在这个主题上的动机。更有效的诊断可以减少过度诊断,过度治疗,死亡率,医疗保健费用以及给患者带来的财务和情感负担。即使是微小的改进也可能非常有意义。
1.2研究现状
乳腺X线摄影是目前检测早期乳腺癌最敏感有效的方法之一。然而,从乳腺X线摄影图像中分类恶性和良性病变的准确度仍旧是很低的。在美国,乳腺X线摄影的阳性预测值,即发现的乳腺癌数量与活组织检查总数的比率通常在15%至30%之间。阳性预测值的改善将降低医疗保健成本并减少不必要的活组织检查所导致的患者的焦虑和发病率。改善乳腺X线摄影诊断准度的一种潜在方法是使用计算机化特征提取技术来提取医疗人员可能不易察觉的信息。计算机提取的特征可以补充乳腺X线摄影异常的视觉特征,并为放射科医师在区分恶性和良性病变方面提供额外的信息。计算机提取的特征,单独或与人类感知的特征相结合,也可以输入到训练有素的分类器中,以估计乳腺X射线摄影恶性病变的可能性,从而帮助放射科医师做出诊断决定。
剩余内容已隐藏,请支付后下载全文,论文总字数:23554字
该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;