聚类搜索引擎系统是搜索引擎发展的未来?

admin
  搜索引擎的发展阶段总共经历了三个阶段:

  第1代搜索引擎主要是基于人工分类的通用搜索;

  第2代主要依靠机器进行自动爬取和分析,利用链接分析技术实现更为准确的搜索,如Google百度等;第3代搜索引擎更加体现了智能化、互动式和人性化。功能包括自动聚类、去重、用户习惯记忆等方面,是未来搜索引擎主要的发展方向。

  近几年,国际上对聚类搜索引擎系统的研究日渐火热,已经出现了一些知名的聚类搜索系统。

  其中,Scatter/Gather系统是个在搜索引擎上使用聚类方法的系统;Vivisimo是一种商业化聚类搜索引擎,符合用户使用习惯,搜索效率高。基于Java的开源Carrot2聚类搜索引擎可自动的把搜索结果归类到相应的语义类别中,它的一个亮点是速度和易用性的提高。

  中文搜索领域,早期比较有实力的聚类搜索引擎有Bbmao,Bbmao搜索系统推出了去重功能,为网民解决了大量阅读重复信息的烦恼。Bbmao的聚类功能,能够提高查找信息的效率,它还具有云集各大搜索引擎结果的功能,同时完成海量信息的分门别类。

  近期出现的baigoogleledu综合了谷歌、百度两大搜索引擎。其基本出发点是两大搜索引擎的搜索结果的很大的差异性。这类系统对搜索结果进行聚类分析,在一定程度上缓解了广告泛滥的局面,使用户更便捷地找到需要的信息。

  有关国内外聚类搜索引擎的相关技术,主要有聚类分析、聚类算法、中文信息处理等技术。Anton等人[7]致力于把分类体系引入评估体系来评价聚类效果质量的研究。Sudipto Guha等研究人员[8]应用概念关联代替传统的计算欧式距离,来衡量数据之间的相似度,从而确定聚类,达到了很好的效果。

  国内一些学术组织和团体很早就开始对自动文本分类、聚类领域等相关内容进行研究,从“天网”和“网络指南针”开始北京大学和清华大学就开始致力于网页的聚类技术研究。

  此外,北京科技大学的麻雪云提出了一种基于关键名词短语聚类的中文搜索结果聚类方法,利用百度、谷歌、雅虎三大搜索引擎来获取互联网信息,对搜索结果进行聚类分析。

  国防科技大学的肖坤对STC算法和Lingo算法进行了比较,并对STC算法进行了改进,设计实现了一个面向校园网聚类搜索引擎系统。