您好,欢迎来到测品娱乐。
搜索
您的当前位置:首页一种新的K—Means蚁群聚类算法

一种新的K—Means蚁群聚类算法

来源:测品娱乐
广西科学院学报 2008,24(4):284~286 Journal of Guangxi Academy of Sciences Vo1.24,NO.4 November 2008 一种新的K—Means蚁群聚类算法 A New AntCl ust Al gorithm Based on K--Means Al gorithm 莫锦萍,陈 琴,马 琳,苏一丹 MO Jin—ping,CHEN Qin,MA I in,SU Yi—dan (广西大学计算机与电子信息学院,广西南宁 530004) (School of Computer,Electronics and Information,Guangxi University,Nanning,Guangxi, 530004,China) 摘要:针对蚁群聚类算法聚类质量不高的原因,使用K—Means算法改进蚁群聚类规则,提出一种新的K Means蚁群聚类算法(KM—AntClust),并通过实验验证新算法的聚类效果。实验结果表明,新的算法可以明显 提高聚类质量。 关键词:聚类蚁群算法 K一平均算法 中图法分类号:TP301 文献标识码:A 文章编号:1002—7378(2008)04—0284—03 Abstract:Due to the low clustering quality of AntClust algorithm,an improved AntClust algorithm iS proposed.which optimize the rules of AntClust model with K—Means mind。iS called KM—AntClust.Then the clustering effection iS verified by experiments.Experimental results demonstrate that the new algorithm can significantly improve the quality of clustering. Key words:clustering,ant colony algorithm,K—Means 聚类是数据在算法的指导下进行无人监督的分 遇则将无巢蚂蚁归到对方所属巢中;(3)两只同巢蚂 类。以K—Meansl】 和K—Medoid_2]为代表的划分法是 蚁 目遇,若相互接受,则增大 、M,和M 、 常用聚类算法中的一种。常用聚类算法多面向数值 M, 值;(4)两只同巢蚂蚁 相遇,若互不接受,则 属性,而蚁群聚类算法(AntClust)一 能处理任意类 减小 、 和 , 、 。。值并将 值小的蚂蚁移 型的数据,具有强鲁棒性和适应性;但是其聚类结果 出巢;(5)两只不同巢蚂蚁相遇并相互接受则将两巢 随机,受数据和参数影响较大,聚类质量不高。本文 合并;(6)若不出现以上各情况,则不做任何操作。 使用K—Means算法思想改进蚁群聚类算法,提出一 蚁群聚类算法具有较好的鲁棒性和适应性,但 种新的K—Means蚁群聚类算法(KM—AntClust),并 是其聚类结果不稳定,主要原因是:第一,规则(3)依 在UCI数据集上对新算法的聚类效果进行测试。 据M 判断踢出蚂蚁,但是根据算法思想,M, 为随 1 传统蚁群聚类算法聚类质量分析 机量,其值不仅与蚂蚁所属巢规模有关,还与循环 次数相关。M 是蚂蚁 被巢成员接受的程度,而不 蚁群聚类方法是利用化学识别系统原理来聚 类,它不需假设对象的表示,仅用相似度sier( . )表 是反应蚂蚁与巢的依存关系, 大并不能说明此 示对象 和 的关系 “]。每只人工蚁均有标签 巢是蚂蚁i的最优归属,故依此踢出蚂蚁产生累积 Label,、基因Genetic 、和模板Template 以及两个判 误差导致聚类质量降低。第二,循环迭代参数Iter和 断参数 、M 一。算法规则如下:(1)两只无巢蚂蚁 删除概率Pdel的设置不尽合理。如果循环次数 相遇时创建一个新巢;(2)无巢蚂蚁与一有巢蚂蚁相 NB 一her*Ⅳ 不足,数据覆盖率低;太大则导 致过学习。参数Pdel太大聚出的类数目较少,相反 收稿日期:2008—10—12 则类过多,影响聚类质量。因此,参数her和Pdel的 作者简介:莫锦萍(1984),女,硕士研究生,主要从事电子商务研究。 确定是保证聚类质量的重要环节。 莫锦萍等:一种新的K—Means蚁群聚类算法 285 2 K—Means蚁群聚类算法 2.1使用K—Means改进蚁群聚类规则 3聚类实验 3.1实验平台、数据集及度量标准 实验平台:PC(配置Pentium 4,CPU 2.4GHz, K—Means聚类算法基于误差平方和最小准则, 聚类结果通常不受初始中心的影响,较为稳定。对于 内存512M),操作系统是Windows XP。算法使用 VC编写。 大数据集,其强伸缩性和高效性常使聚类结果以局 部最优结束。因此我们引入K~Means算法改进聚类 数据集采用UCI公共数据库(http://kdd.Ics. 规则。 设d 为蚂蚁 到其所属巢中心的距离,规则改 进如下:(1)两只无巢蚂蚁i, 相遇时创建一新巢并 计算巢中心;(2)无巢蚂蚁i与有巢蚂蚁 相遇则将 蚂蚁i归到蚂蚁J所属巢中并更新该巢中心;(3)同 巢互不接受的两只蚂蚁i,J相遇时,计算d 、d ,将d 值大的蚂蚁踢出巢并更新巢中心;(4)两只不同巢的 蚂蚁相遇且相互接受时,将两巢合并并更新巢中心; (5)若不出现以上各情况,则不做任何操作。 2.2 K—Means蚁群聚类算法 模拟蚂蚁相遇过程完成后,蚁群聚类算法通过 将无巢蚂蚁分配到有巢且与其最相似的蚂蚁所属巢 中来完成重新分配操作。有巢这一前提了所找 到的蚂蚁实际上不一定最相似,这将导致聚类质量 下降。因此用K—Means算法将蚂蚁分配到巢中心与 其距离最小的巢来优化此操作。 设相遇过程完成后无巢蚂蚁个数为g,存留的 大类个数为ClassNum,Class[-ClassNum3,蚂蚁总数 为Ⅳ。K—Means蚁群聚类算法描述为: MinDisClassl(i,Class[3)/*求巢中心距蚂蚁 i最近的巢*/ Clust() for(r一1;r<一Iter*N;r++) { i=rand() n; j—rand()%n; Cluster according to the rules in Sect 2.2 } Reassign() { for(i一1;i%q;i++) Label 一MinDisLabel(i,ClassF ̄); } Uci.edu)提供的数据集(见表1)。 表1 UCI数据集 聚类性能评价采用文献[6]中介绍的F— measure方法。F—measure组合了信息检索中查准率 (precision)和查全率(recal1)的思想。一个聚类 相 对于分类 的precision和recall定义为:P— precision( , )一Nu/Ⅳ ,R=recall( , )=Nu/Ⅳ ,其 中Ⅳ ,是在聚类 中分类 的数目,Ⅳ 是聚类J所有 对象的数目,Ⅳ 是分类i所有对象的数目。分类i的 F—measure定义为:F( )一2 PR/(尸+R)。 对分类i而言,哪个聚类的F—measure值高,就 认为该聚类代表分类 的映射,即F—measure表示分 类i的评判分值。对聚类结果 来说,其总F— measure可由每个分类i的F—measure加权平均得 (1i l*F( )) 到:F 一 ____,其中liI为分类i中所有对 象的数目。 3.2 实验步骤 步骤1 使用Breast—cancer数据集进行参数训 练,训练结果如图1和图2所示。从图1和图2结果 可知,当Pdel一0.06,her:60时聚类取得最佳效 果,故实验中我们取Pdel=0.06,her=60。 遥 霹 * 籁 O O1 o 02 o 03 o 04 O 05 o 06 o 07 o o8 删除概率 图1删除概率与聚类总数平均值关系 286 广西科学院学报第24卷第4期2008年11月 坦 4 结束语 露 1斗 本文将K—Means聚类思想引入蚁群聚类算法 景 嚣 中,并在UCI数据集上进行实验。实验结果表明,K— E Means优化的蚁群聚类算法从距离角度反应蚂蚁与 巢成员的接受程度,使得聚类有更加合理的判断依 据,聚类质量得到了进一步的提高。 图2循环迭代参数与F measure平均值关系 参考文献: 步骤2 用AntClust算法对UCI数据集进行 [1]MacQueen J.Some methods for classification and 聚类。 analysis of multivariate observations:proc of the 5th 步骤3用改进的蚁群聚类算法(K—Means蚁 Berkeley Symp on Math Statist[c].I967:281—297. 群聚类算法)对UCI数据集进行聚类。 E2]Kaufman J,Rousseeuw P J.Finding groups in data:an 步骤4结果比较与分析。 introduction tO cluster analysis EM].New York:John 3.3实验结果及分析 Wiley&Sons,1990. 两个算法均运行10次后取F—measure平均值 r3] N Labroche,N Monmarche,G Venturini.A new 作为实验结果,结果如表2所示。 clustering algorithm based on the chemical recognition 表2 UCI数据集聚类结果 system of ants:proc of 1 5th European Conference on Artificial Intelligence(ECAI 2002)[C].Lyon FRANCE,2002:345—349. r4]Nicolas Labroche,Nicolas Monmarche,Gilles Venturini. Web sessions clustering with artificial ants colonies. [EB/OL].[2006一O1—12].http:/www.hant.i. univtours fr/webhant/pub/LabMonVen03a.www.pdf. r5]Nicolas I abroche,Nicolas Monmarch6,Gilles Venturini. 文献[7]中说明数据集Iris用于聚类时可以作 AntClust:ant clustering and web usage ming[c]. 两类处理。从表2可知,K—Means蚁群聚类算法获得 Genetic and Evolutionary Computation,2003:25—36. 更好的聚类效果,其F—measure平均值均比蚁群聚 E63 Yang Y,Kamei M.Clustering ensemble using swarm 类算法的高,最高达到了0.988722;另外,改进算法 intelligence:IEEE Swarm Intelligence Symposium 聚类总数平均值也比蚁群聚类算法的更接近实际分 [M].Piscataway,NJ:IEEE Service Center,2003: 65—71. 类数。在实验中虽然聚类质量均有提高,但是有的效 [7 2 Parag M Kanade,Lawrence O Hal1.Fuzzy ants as a 果并不明显,如表2中的Wine数据集,这主要是数 clustering concept:proc of the 22nd International 据集中类与类间的差别不大,数据交叉重合比较多 Conference of the North American Fuzzy Information 导致聚类效果不明显,聚类质量不高。 Processing Societymc].2003:227—232. (责任编辑:韦廷宗) 瑞典研究显示高热量快餐食品易诱发老年痴呆症 老年痴呆症是发生在老年期及老年前期的一种原发性退行性脑病,指的是在没有意识障碍的状态下,记 忆、思维、分析判断、情绪等方面出现障碍。瑞典卡罗林斯卡医学院的研究人员研究显示,高热量的快餐食品 容易诱发老年痴呆症。研究人员在用脂肪、糖和胆固醇含量丰富的快餐食品喂食老鼠9个月后发现,老鼠脑 中出现了类似老年痴呆症患者脑部的Tau蛋白纤维状缠结情况。Tau蛋白纤维状缠结是老年痴呆症患者典 型的病理特征之一,这种蛋白纤维状缠结会影响患者的认知能力。研究人员指出,虽然上述成果对老年痴呆 症的防治研究有启发,但是仍需进一步研究高热量快餐食品易诱发老年痴呆症的具体原因。 (据科学网) 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- cepb.cn 版权所有 湘ICP备2022005869号-7

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务