聚类算法及应用研究

 2022-03-03 20:46:58

论文总字数:34939字

摘 要

当今社会已经步入了信息化时代,随着信息技术的迅速发展,需要管理的数据几乎是呈爆炸性增长,为了有效的管理这些数据,数据挖掘为人们提供了很好解决这一难题的方法——数据聚类算法。聚类算法作为数据挖掘的一个很重要的方法之一,近年来得到了越来越多的关注与应用。随着人们处理数据量的日益增大,聚类算法所面对的数据对象也日趋复杂,被需求的速度也是有增无减,关于这一方面的研究也将面临诸多的机遇与挑战。

本文主要对几种常用的聚类算法进行了一个比较系统的研究与分析,主要包括:(1)对数据聚类算法的研究背景、研究意义和研究现状进行了介绍;(2)研究了距离的计算方法与相似性的度量,比较分析了几种类型聚类算法的基本原理、功能作用及其适用范围;(3)对基于划分的聚类算法、层次性的聚类算法、基于密度的聚类算法进行了详细的讨论。本文主要研究了4种算法——基于划分的K-means算法、基于层次的AGNES算法、基于密度的DBSCAN算法和Destiny Peak算法。针对这四种算法分别分析了它们的原理、特性、适用范围和优缺点。并针对K-means算法的改进进行了研究;(4)研究了图像纹理特征提取算法LBP(Local Binary Pattern),重点讨论了LBP算法对人脸图像的处理,并用Destiny Peak聚类算法对这些数据化后的人脸图像进行处理,来达到一个对大量人脸图像进行辨别和分类的结果。

关键词:数据挖掘、聚类算法、K-means、AGNES、DBSCAN、Destiny Peak、LBP、人脸。

The research and application of data clustering algorithms

Abstract

Today our society has entered the information age. With the rapid development of information technology, the data needed to be managed is growing explosively. In order to effectively manage these data, data mining digging provides a good method to solve this problem for people----data clustering algorithm. As one of the very important methods of data mining digging, the clustering algorithm gets more and more attention and has been applied in recent years. As the amount of data dealt by people is increasing rapidly, the data objects the clustering algorithm faces are becoming more and more complicated and the speed needed is increasing. The studies on this subject will also be faced with many challenges and opportunities.

This paper focuses on a systematic study and analysis about various aspects of clustering algorithms .The main contents are as follows: (1) A clear and concise description of the research background, significance and status of data clustering algorithm, and briefly described the contents and structure arrangement of the cluster. (2) It has introduced the definition of clustering algorithm, the calculation of distance and the measure of similarity, listed the common types of clustering algorithms, and briefly explained the basic principles of these algorithms, functional role ,its advantages and disadvantages, and made a summary as well.(3) It has discussed the clustering algorithm based on the division of type, the clustering algorithm based on hierarchy, the clustering algorithm based on density in details. This paper mainly studies the four algorithms ----- K-means Algorithm based on the division of type, AGNES Algorithm based on hierarchy, DBSCAN Algorithm based on density and Destiny Peak Algorithm. For these four algorithms, it has individually analyzed their principles, characteristics, scope of application, advantages and disadvantages. And it has also made a brief introduction for the improvement of K-means. (4)It has individually introduced the PCA Algorithm and LBP Algorithm, two kinds of face image processing algorithms. It has focused on the research of the LBP face image processing. Use Destiny Peak clustering algorithm to process the face images after data processing to get the result of identifying and classifying a large number of facial images. (5) In the end, the thesis work has been reviewed, discussed and summarized . And some of the issues tha need to be improved and further studied have also been discussed and prospected.

KEYWORDS: Data Mining Digging, Clustering Algorithms, K-means, AGNES, DBSCAN, Destiny Peak, LBP, Face.

目录

摘要 I

Abstract II

第1章 绪论 1

1.1 研究背景和研究意义 1

1.1.1 聚类算法的产生和发展 1

1.1.2 聚类算法的研究意义 1

1.2聚类算法研究现状 2

1.2.1 基于划分的聚类算法 2

1.2.2 基于层次的聚类算法 2

1.2.3 基于密度的聚类算法 2

1.2.4 其他聚类算法 2

1.3 论文的工作 3

1.3.1 研究工作 3

1.3.2 结构安排 3

第2章 聚类算法的基本概念 4

2.1 聚类算法的定义 4

2.2 距离和相似性度量 4

2.2.1 距离的定义和计算 4

2.2.2 相似性度量[52] 5

2.3 常用聚类方法 5

2.3.1 划分聚类方法 5

2.3.2 层次聚类方法 6

2.3.3 密度聚类方法 7

2.4 本章小结 7

第3章 聚类算法研究 8

3.1 基于划分的聚类算法 8

3.1.1 K-means算法 8

3.1.2 K-means算法的改进 9

3.2 基于层次的聚类算法 9

3.2.1 AGNES算法 10

3.2.2 分裂式层次聚类算法简介 11

3.3 基于密度的聚类算法 11

3.3.1 DBSCAN算法 11

3.3.2 Destiny Peak算法 12

第4章 实验结果与分析 16

4.1 仿真数据的聚类结果 16

4.1.1 相交直线图聚类结果 16

4.1.2 双抛物线图聚类结果 17

4.1.3 高斯分布随机球形簇聚类结果 19

4.1.4 总结 21

4.2 人脸图像的聚类结果 21

4.2.1 LBP算法对人脸图像的处理 21

4.2.2 四种聚类算法对人脸图像的分析 22

4.3 本章小结 23

第5章 总结与展望 24

参考文献 25

致谢 29

绪论

研究背景和研究意义

聚类算法历史

古人有云“物以类聚,人以群分”,分类问题一直存在于人类社会与自然界之中,“类”的概念,比较通俗的讲,即具有相似性的元素集合。

聚类分析的本质是分类,作为一个从分类学中发展起来的分支,聚类分析最初是根据人们自己的经验和一些常识来进行的,并没有用上数学工具。后来近代自然科学飞速发展,人们也意识到了数学的重要性,因此,数学逐渐被人们利用起来,运用在聚类分析中,形成了数值分类学,后来又引入了多元分析的技术,形成了聚类分析。聚类分析的种类非常丰富,是从古至今致力研究的科学家们的结晶。

剩余内容已隐藏,请支付后下载全文,论文总字数:34939字

您需要先支付 80元 才能查看全部内容!立即支付

该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;