中国科学院大学学报 ›› 2007, Vol. 24 ›› Issue (2): 241-247.DOI: 10.7523/j.issn.2095-6134.2007.2.016
王 菁 张焕杰 杨寿保 高 鹰
WANG Jing, ZHANG Huan-Jie, YANG Shou-Bao, GAO Ying
摘要: 基于内容的非结构化P2P搜索系统中直接影响查询效果和搜索成本的两个主要问题是,高维语义空间所引起的文本相似度计算复杂以及广播算法带来的大量冗余消息. 本文提出利用集合差异度实现基于内容聚类的P2P搜索模型提高查询效率和减少冗余消息。该模型利用集合差异度定义文本相似度,将文本相似性的计算复杂度控制在线性时间内而有效地减少了查询时间;利用节点之间的集合差异度实现基于内容的聚类,既降低了查询时间,又减少了冗余消息.模拟实验表明,利用集合差异度构建的基于内容的搜索模型不仅具有较高的召回率,而且将搜索成本和查询时间分别降低到了Gnutella系统的40%和30%左右.
中图分类号: