摘要: 文本聚类是建立大规模文本集合的分类体系实例的有效手段之一。本文讨论了利用标准的分类测试集合进行聚类质量的量化评价的手段,选择了k-Means聚类算法、STC(后缀树聚类)算法和基于Ant的聚类算法进行了实验对比。对实验结果的分析表明,STC聚类算法由于在处理文本时充分考虑了文本的短语特性,其聚类效果较好;基于Ant的聚类算法的结果受参数输入的影响较大;在Ant聚类算法中引入文本特性可以提高聚类结果的质量。
中图分类号:
刘务华; 罗铁坚; 王文杰. 文本聚类算法的质量评价[J]. 中国科学院大学学报, 2006, 23(5): 640-646.
LIU Wu-Hua, LUO Tie-Jian, WANG Wen-Jie. Quality Evaluation for Three Textual Document Clustering Algorithms[J]. , 2006, 23(5): 640-646.