研究对象为Google、百度(Baidu)一搜(Yisou)、中搜(Zhongsou)、爱问(iAsk)、搜狗(Sogou)。
搜索引擎质量主要指网页搜索质量评测,网页搜索是搜索引擎的基础与根本。搜索引擎质量评测包括标准搜索方式下检索结果相关性、网页覆盖率、死链率、作弊率、结果重复率、中文分词技术。为了让测评更客观公证,除了以上6项,清华大学 IT 可用性实验室还加入了新闻及时性、图片搜索、MP3搜索3项。
评测关键词解释:
搜索引擎的相关性关系着用户的搜索效率和满意程度,相关性好的搜索引擎可以节省用户的时间和网络资源,对于任何一个搜索引擎,相关性至关重要。
网页覆盖率又称为索引库大小,也就是所能搜索到的网页数量。
死链指搜索结果中指向已不存在(或无法访问)的互联网资源的链接。
网页作弊率是指网页通过程序或人工的手段,非法地提升自己在搜索引擎中的排序,提高自身的点击率等非法获益行为。
重复是影响网页质量的一个重要因素。重复内容多不但影响用户感受,还很耗费系统资源,影响检索效率。
中文分词,是指把输入计算机的汉语语句自动切分为词的序列的过程。
清华的评测结果是:
|
Google |
一搜 |
百度 |
中搜 |
爱问 |
搜狗 |
相关性 |
71.68% |
66.17% |
70.60% |
69.82% |
61.59% |
63.13% |
网页覆盖率 |
26.62% |
17.51% |
32.52% |
24.73% |
12.45% |
8.80% |
死链率 |
7.85% |
5.02% |
5.20% |
6.53% |
10.77% |
6.50% |
作弊率 |
4.67% |
5.39% |
3.64% |
2.69% |
6.49% |
3.65% |
分词 |
80% |
77.80% |
90% |
81.10% |
74.40% |
76.70% |
注: 死链率和作弊率数值越低搜索引擎质量越高。
从表中可以看出,在网页搜索质量方面本土搜索引擎百度和中搜的许多指标开始超过Google。百度在总体指标上已超过Google成为第一。 |