1 绪 论
在浩瀚的网络信息海洋中冲浪,代写文章搜索引擎已经成为了广大网民们查找信息的重要工具。据中国网络信息中心 CNNIC 调查,互联网用户经常使用的网络服务中,搜索引擎占了51.5%[2]。由此可见,搜索引擎已成为互联网应用的重要组成部分,对互联网的普及正产生着极大的影响。而其中搜索引擎的核心技术——排序算法也变得极为重要,一个合理的搜索引擎排序算法可为互联网营造一个公平的竞争环境。
1.1 搜索引擎的现状
1.1.1 搜索引擎的发展历史
从 1994 年出现的 robot、spider 等计算机所搜程序至今,搜索引擎的发展非常迅速,无论是数量与质量都发生了很大的变化。1995 年前后,以 Yahoo、AltaVista和 Infoseek 为代表的第一代搜索引擎开始上网。1996 年 Internet 网上只有十几个大型综合性搜索引擎,而如今搜索引擎的数量已经达到了 1000 多个,出现了相当一批专用型搜索引擎。这些搜索引擎利用先进的搜索技术使搜索任务更加细化:在医学领域,出现了专门查找某类疾病的搜索引擎;在电子商务中,出现了专门查找最低价格图书的搜索引擎。这种针对特殊用途和特殊目的的搜索引擎的出现反映了广大网络用户希望找到更准确信息的需求,第一代搜索引擎面临挑战。
1998 年,以 Google 和 Direct Hit 为代表的第二代搜索引擎出现在 Internet 上。它们的创始人宣传这些搜索引擎的主要任务是提高查找准确率,在这个目标的指引下引进了新的搜索技术[3]。Google 认为,一个网页的重要性取决于被其他网页连接的数量,而 Direct Hit 认为多数人访问的网站是最重要的网站。这种由网络大众集体确认网站重要性的方法具有客观性和公正性,在实际使用中有令人满意的效果,而网站的重要性则意味着某一方面内容的丰富和准确。
现在很多网站推出了号称是新一代的搜索引擎,但是没有明显的标志,“新一代”仅仅是一个说法,还没有成为一个明显的趋势,其特征是主题搜索引擎。随着信息多元化的增长,千篇一律的给所有用户同一个入口显然己经不能满足特定用户更深入的查询需求。同时,这样的通用搜索引擎在目前的硬件条件下,要及时更新以得到互联网上较全面的信息是不太可能的。针对这种情况,用户需要一个分类细致精确、数据全面深入、更新及时的面向主题的搜索引擎。由于主题搜索运用了人工分类以及特征提取等智能化策略,因此它比上面提到的传统搜索引擎将更加有效和准确。
1.1.2 搜索引擎的分类
① 根据信息覆盖范围以及适用用户群分类
综合性搜索引擎
综合性搜索引擎主要是以 Web 网页和新闻组为搜索对象,信息覆盖范围广,使用用户广泛。如 Yahoo、Google、Baidu 等均属于综合性搜索引擎。
专用性搜索引擎
WWW 上的搜索引擎作为 Internet 信息搜索工具,在运行着综合性搜索引擎的同时,还针对特定用户推出了专用性搜索引擎,可供查找某一特定领域的信息。如:Deja News、Liszt、Softseek 等均属于专用性搜索引擎。
② 根据组织信息方式分类
目录式分类搜索引擎(网站级)
目录式分类搜索引擎(Directory)将信息系统加以归类,利用传统的信息分类方式来组织信息,用户按照分类查找信息。这种搜索引擎特别适用于那些希望了解某一方面或范围内信息但又没有明确搜索目的的用户使用。最具代表性的目录式分类搜索引擎是 Yahoo。目录式分类搜索引擎由于网络目录中的网页是专家人工精选得来,故而网页内容丰富,有较高的查准率,但其查全率低,搜索范围较窄。
全文搜索引擎(网页级)
全文搜索(Full-Text Search)引擎是指能够对网站的每个网页中的每个单字进行搜索的引擎。最典型的全文搜索引擎是 AltaVista。全文搜索引擎的特点是查全率高,查准率低,搜索范围较广,提供的信息多而全,缺乏清晰的层次结构,查询结果中重复的链接比较多。
分类全文搜索引擎
分类全文搜索引擎是针对全文搜索引擎和目录式分类搜索引擎的缺点设计的,通常是在分类的基础上再进一步进行全文检索。用户通过在其搜索程序(如:robot、spider 等)中输入所需要信息的关键字,得到检索结果。现在大多数的搜索引擎都属于分类全文搜索引擎。
智能搜索引擎
这种搜索引擎具备符合用户实际需要的知识库,搜索时,引擎根据已有的知识库来理解检索词的意义并以此产生联想,从而找出相关的网站或网页。同时,智能搜索引擎还具有一定的推理能力,它能根据知识库的知识,运用人工智能方法进行推理。这样就大大提高了查全率和查准率。
2 经典排序算法及其比较
搜索引擎查询的结果按照一定的规则排序供用户查看,这种规则就是搜索引擎排序算法。目前大多数搜索引擎仍然是通过对搜索引擎的链接关系进行分析,找到相对比较重要的网页。这些算法大多是以 PageRank、Hits 等经典算法为基础,进行改良,加入各自偏重的参数形成综合的排序模型。
3 网络原创文章的判定算法 ............................................................................ 21
3.1 网络文章的分类 ..................................................................................... 21
3.2 网站的三个“信用度”......................................................................... 21
3.3 文章原创可能性的确定 .............................................................................. 22
3.4 文章原创可能性对网站信用度的修正 ............................................... 23
3.5 本章小结 ............................................................................................ 24
4 原创优先的搜索引擎排序算法 ...................................................................... 25
4.1 内容重复网页的确定 ............................................................................ 25
4.2 原创文章判定结果对网页权威度的修正 ...................................................... 29
4.3 综合排序模型 ..................................................................................... 31
4.3.1 基于网页内容的相关度算法 ................................................................ 31
4.3.2 最终检索排名方法 ................................................................................ 32
4.4 本章小结 ...................................................................................... 34
5 原型系统研究 ...................................................................................... 35
5.1 技术选型 ........................................................................................ 35
5.2 Nutch.............................................................................................. 36
5.3 系统设计与实现 .............................................................................. 41
5.4 算法验证 ..................................................................................... 48
6 结论与展望
本文通过对经典搜索引擎排序算法及其改进算法的分析,指出了其对与网络原创文章的不利之处,提出了有利于原创文章的搜索引擎排序模型。
6.1 总结
随着网络规模的扩大,搜索引擎正在现代网络竞争中占据越来越重要的地位,而搜索引擎的核心——排序算法正在对网络竞争能否公平方面产生着巨大的影响。与此同时,网络文章轻易的被转载这一现实情况正使得原创站点在网络竞争中处于很不利的地位。本文通过改进搜索引擎排序算法,提高网络原创文章的搜索引擎排名无疑能使得现代网络竞争更为公平,具有很重要的现实意义和社会效益。论文的主要工作如下:
① 原创文章的判定算法
根据网页文章的信息,对各个网页的原创可能性进行量化评分。根据网站“信用度”判断文章的原创可能性,计算出文章的原创可能性以后再反过来对网站的“信用度”进行修正。通过这一递归判断思想,完成文章原创可能性的量化评估,使之可以应用到搜索引擎之中。
② 综合排序模型
根据搜索引擎网页去重这一领域中目前国内外最新的研究状况,找到适用于本次研究的重复网页判定算法。利用网页的 PageRank 值和文章原创可能性的量化结果,以求得最终的网页权威度。当用户进行搜索时,首先根据关键词检索相关网页,然后计算相关网页的关键词相关度,然后再综合网页的最终权威度,即得最终的排序结果。这样,既应用了原创文章的判定算法,又不会影响原有算法的整体结构。
③ 算法验证
本文通过实现一个基于 Nutch 的搜索引擎,测试原创优先的搜索引擎排序模型的排序结果。实验结果证明,该算法能够提高原创文章的搜索引擎排名,修改思路是可行的,可以在搜索引擎排序中应用。
参考文献:
[1] 孙建军. 网络资源搜集与利用. 东南大学出版社. 2000 年 8 月. 207-214
[2] 刘喜申. 因特网资源及其应用. 北京图书馆出版社. 2002 年 9 月, 184-188
[3] 田梅梅. 搜索引擎 Google 与百度的比较分析. 云南档案. 2007 年 01 期
[4] 张兴华, 王仕雪. 几种英文搜索引擎的性能及检索功能. 现代情报. 2005 年 05 期
[5] 刘军. 中小企业网络营销中的 SEO. 商场现代化. 2007 年 23 期
[6] 陈洁惠. 搜索引擎排序算法的研究. 河海大学硕士学位论文. 2007 年 3 月
[7] 曹军. Google 的 PageRank 技术剖析. 情报杂志. 2002 年 10 期
[8] 杨思洛. 搜索引擎排序技术的研究. 现代图书情报技术. 2005 年第 1 期
[9] 文炯. 搜索引擎之竞价排名研究. 江西图书馆学刊. 2006 年 01 期
[10] 宋聚平. 对网页 PageRank 算法的改进. 上海交通大学学报. 2003 年 3 月