聚类算法及应用研究文献综述

 2022-11-01 01:11

文献综述:

聚类分析源于许多研究领域,包括数据挖掘、统计学、机器学习、模式识别等。它是数据挖掘中的一个功能,也能作为一个独立的工具来获得数据分布的情况,概括出每个簇的特点,或者对特定的某些簇作进一步的分析。此外,聚类分析也可以作为其他分析算法的预处理步骤,这些算法在生成的簇上进行处理[1]

每个聚类分析算法本质上都有一个自己的分类标准,也可以理解为对数据分组的目标是什么,用数学意义上的概念来说就是目标函数。

目前现存的大部分的聚类标准或是目标函数可以归结为以下几类:(1)以紧密性为目标的聚类分析,即簇内对象联系紧密,簇间关系疏远,这类聚类算法代表性的算法有划分式方法中的K-means算法、层次聚类算法[2]等。这类算法对球形分布的数据或者是本身可分性就很强的数据有很好的聚类效果,但是对复杂结构的数据或分布就无能为力;(2)以连通性为目标的聚类分析,这类算法的基本思路就是相互邻接的数据应该有相同的模式,例如基于密度的聚类,基于路径的聚类等;(3)以空间隔离为标准进行聚类分析,单纯的以空间隔离性作为标准难以获得很好的有意义的聚类分析结果,通常和其它标准相结合。

聚类分析中基于划分的方法是将含有n个数据对象的数据集,使用基于划分的方法把数据集分解为k个结果集,每个结果集表示为一个聚类的簇。划分还要满足每个簇中最少要存在一个数据对象,每个数据对象只能存放在一个簇中。划分的基本准则是同一簇中的数据对象相似度高,不同簇中的对象相似度低或者没有联系。

K-均值算法即(K-MEANS 算法)是基于质心的划分方法,以每个聚类的算术平均点为聚类的中心来计算平方误差[3][5]。从需要划分的n个数据对象中随机的选取其中的k个数据对象作为k个聚类的初始中心,对于除了选取的中心以外的其他数据对象,则根据它们与初始聚类中心的相似程度来表示,来将它们划分到每一个聚类中。每划分一次都要计算各个聚类中新的聚类中心。得到新的聚类中心之后,再次进行上一步骤,将各个点划分到所有的聚类中。直到标准测度函数收敛,则聚类最终结束[4]

因为K-means算法必须指定K值,而很多情况下对K值的确定是一个十分复杂难解的问题;而K-means算法对于聚类中心的选取是完全随机的,初始选取的中心不同,那么聚类的结果就会有差别;再加上K-means算法对孤立点的抗干扰不足,以及只能发现球状聚类的缺点,有必要对该算法进行改进。

凝聚层次聚类:凝聚层次聚类是一种自底向上的基于层次的聚类分析方法,凝聚方法是将数据集中的每一个数据对象在初期看成一个簇,并通过不断的迭代,将满足要求的对象簇合并成一个簇的过程。最终形成的簇就是理想的聚类簇。该凝聚方法的代表算法为AGENES。分裂层次聚类:分裂层次聚类是一种自上而下的基于层次的聚类分析方法,分裂方法是首先将数据集中所有对象全部放到一个簇中,不断对聚类簇进行操作,最后生成多个聚类子簇的过程。该聚类子簇可以包含一个或者多个数据对象。该分裂方法的代表算法为DIANA[4]

层次聚类方法虽然方便,但是有一个很大的缺点,就是合并和分裂的步骤不能被撤销,在无指导的学习过程中,如果合并或分裂已经完成,其结果就不能被撤销,只能用得到的结果去进行下一轮的分析,如果在前一步骤出现错误结果,那么后面的结果也就不会准确。该聚类方法在分析过程中也会需要检查和估算大量的组,方法的可伸缩性较差。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。