解析聚类搜索引擎概念和工作过程

admin
  所谓聚类搜索引擎,就是运用聚类技术对搜索结果进行自动聚类分析的搜索工具。

  其特点是去重性强、分类性强、汇集性强,即可以及时去除重复信息,对搜索的结果进行分门别类,并可以汇集各大知名搜索引擎的信息资源。

  目前,典型的聚类搜索引擎的基本工作步骤为:

  ①依据用户查询的关键字,从一个或多个搜索引擎获取搜索结果;

  ②对搜索结果进行预处理,过滤掉重复、无效信息;

  ③将文档中关键短语作为特征提取出来生成聚类标签;

  ④将文档分配到生成的聚类标签下;

  ⑤将聚类后的搜索结果进行排序并显示给用户。