基于关键词和文本之间的语法特征基础上的文章搜索方式探究

发布时间:2013-04-15 22:18:58 论文编辑:candace

第一章 引言


1.1 课题研究的背景
信息的飞速增长,使搜索引擎成为人们查找信息的首选工具,Google、百度等大型搜索引擎一直是人们讨论的话题。随着搜索市场价值的不断增加,越来越多的公司开发出自己的搜索引擎,阿里巴巴的商机搜索等也陆续面世。自然,搜索引擎技术也成为技术人员关注的热点。
搜索引擎(search engines)是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,并将处理后的信息显示给用户,是为用户提供检索服务的系统。
早期的搜索引擎是把因特网中的资源服务器的地址收集起来,由其提供的资源的类型不同而分成不同的目录,再一层层地进行分类[ 2 ]。人们要找自己想要的信息可按他们的分类一层层进入,就能最后到达目的地,找到自己想要的信息。这其实是最原始的方式,只适用于因特网信息并不多的时候。
随着因特网信息按几何式增长,出现了真正意义上的搜索引擎,这些搜索引擎知道网站上每一页的开始,随后搜索因特网上的所有超级链接,把代表超级链接的所有词汇放入一个数据库。这就是现在搜索引擎的原型。随着 google、百度等大型搜索引擎的出现,搜索引擎的发展也进入了黄金时代,相比以前其性能更加优越。现在的搜索引擎已经不只是单纯的搜索网页的信息了,它们已经变得更加综合化,更加方便。
搜索引擎技术研究热点问题是,提高搜索引擎的智能化程度和检索的准确性。
我们要提高搜索引擎的智能程度[ 3 ]也就是提高搜索引擎对用户输入的检索条件的理解能力,也就是对检索条件进行扩展。目前对搜索条件进行扩展的方法只有两种,分词法和语义网。分词法和语义网都需要计算机理解词义,由于现阶段,计算机对于理解自然语言还是比较困难,所以研究对检索条件进行扩展方法就是重中之中了。
由于网络上的文本信息越来越丰富,搜索引擎很难搜集到用户所能想到的所有相关信息。有很多的内容符合检索条件的文本信息,可能因为关键词集中并不包括检索者输入的检索词而没有被找出来。

1.2 课题研究的意义
由于搜索引擎的工作方式和因特网的快速发展,使其搜索的结果让人越来越不满意。例如当我们输入搜索词“环境保护”时,搜索引擎不仅把关键词集中包含“环境保护”的相关文本搜索出来,还把关键词集中包含“环境”或包含“保护”的相关文本检索出来了。这种搜索技术搜索出来的结果让人不是很满意。因为理论上许多类似的词,在语义上具有完全不同的含义。在一些文献中采取的方法是使用诸如基于语义计算或者词库技术对自然语言的相关技术[ 4 ]。这种方法似乎很合理,很令人振奋,但它离实现应用还有一段很长的路要走,因为直到今天我们还没有足够的技术来识别任何自然语言的语义。因此,我们需要一些其他的方式来协助我们更有效地检索信息。
论文提出了解决上述问题的一种新思路。这种方法是基于关键词和文本之间的语法特征,而不涉及到关键词的语义。因此,计算机不用理解词义就能找到相关的关键词和文本。


第二章 国内外研究现状


2.1 主流的解决方案
目前国内外,一般的搜索引擎对搜索关键词进行扩展的方法只有两种,分词法和语义网。


2.1.1 分词技术
分词技术就是搜索引擎针对用户提交查询的关键词串用各种匹配方法进行搜索的一种技术。
由于英文的书写方式单词与单词之间是空格隔开的,所以计算机很容易把一句英文句子分个成一个一个的单词,但是中文是以字为单位的,一个一个分开就失去了他的意义,举个简单的例子:英文句子 I am a student,中文的意思是“我是一个学生”,通过空格搜索引擎能够很容易的知道 student 是一个单词,但是无法知道需要“学”和“生”合起来才表达一个意思,如何让搜索引擎从一个句子中分割出有意义的词,这就叫做分词技术。


第三章 定义与算法.......................................................................................8
3.1 作者与搜索者的思想..........................................................................8
3.2 基本定义....................................................................................9
3.3 基本算法.............................................................................................10
3.4 算法的改进....................................................................................16
第四章 实验和比较...................................................................................22
4.1 实验准备......................................................................................22
4.2 实验结果比较..........................................................................22
第五章 结语.............................................................................................26
5.1 课题研究总结..............................................................................26


第五章 结语


5.1 课题研究总结
我们的论文主要针对现有搜索引擎都是使用“部分匹配”关键词的方法导致搜索准确率不高的问题进行研究,提出了一种全新的科技文章搜索方法。这种法是基于关键词和文本之间的语法特征,而不涉及到关键词的语义,因此,计算机不用理解词义就能找到更多更准确的相关文章。
我们通过编写相应的程序在因特网上多次做实验,并对实验结果进行分析,得出我们这种算法有较高的可行性和有效性。从第四章的比较中可以看出,用我们的方法得到的搜索结果的相关度明显高于用分词法得到的搜索结果的相关度。并且,我们的方法能找到传统的分词法找不到的相关文章。因此,我们的工作对于更准确找出科技文章是很有意义的。


参考文献:
[1] 林浩. 基于电子商务平台的智能搜索引擎研究与设计. 硕士论文. 东北师范大学, 4 .2009
[2] 苏瑞竹. 搜索引擎的发展与人文关怀. 现代情报. 2006,10:171
[3] 刘冰,胡风华,申丽红. 搜索引擎技术研究.软件导刊,2009,7:137-138
[4] Tomek Strzalkowski Natural Language Information Retrieval, KluwerAcademic Publishers,1999.
[5] 吴育良. 百度中文分词技术浅析. 河南图书馆学刊. 2008,8:115-117
[6] Rijsbergen C J Van. http://www.1daixie.com/dxwz/ Information Retrieval[M],second edition,Butterworths,
[7] Ricardo Baeza-Yates, Berthier Ribeiro-Neto, Modern InformationRetrieval.England;Addison-Wesley, 1999.
[8] 周青、郑泽奇. 相关的科技文章的智能搜索. 计算机工程与应. 2004,12:48-51
[9] G. Salton and C. Buckley, “Term-weighting approaches in automatic textretrieval”, Information Processing and Management, vol. 24(5), pp. 513–523,1988.
[10] 王正, 陆余良, 刘金红, 施凡. 基于 Lucene 的互联网文献信息检索系统的研究. 安徽大学学报(自然科学版). 2009,9:32-35