第一章绪论
1.1研究背景
当今时代,互联网发展的速度越来越快,同时带来的网络上的学术信息散播也越来越多。不仅仅是之前的纸质保存办法,更多的学术信息以网页的形式出现在网络中,如论坛、贴吧、科学网站,专门的网络数据库(清华同方CNKI、读秀知识库、万方学位论文全文数据库、ScienceDirect、超星数字图书馆、EBSCO外文期刊全文数据库等)。
各种网络数据库都将学术信息进行了保存,所展示的信息量也十分庞大,用户可以通过每个数据库专门的查询方式进行信息查询。为了方便科研研究学者更好的查阅参考各种学术信息,全国高校基本都购买了万方学位论文等数据库,这些学术数据库含有海量的学术信息,即海量的科研文献,人们可以根据需求进行选择性的查询下载,给科研人员带来了便捷与帮助。但是,由于网络数据库存储的特点,科研人员不能通过这些资源直接获得某一研究领域的发展趋势,以及不能直接得出某研究领域的具体文献撰写特点,以便更好的表达所进行的研究项目,所以,如何提高数据的利用效率,知识的再次发现利用成为了当今科研文献研究的一大热点。
人类认识世界并对其改造,这个过程中所需要的最强有力的工具就是计算机,她的出现,使人类完成了许多自身不可完成的事情。人机之间进行通信经历了二进制代码、汇编语言、高级语言以及第四代语言,伴随着科学技术的发展,尤其是智能技术的不断发展,人机通信方式应该是通过最自然的自然语言来进行,也就是计算机所能够理解的语言。自然语言处理(Natural Language Processing,NPL)技术应运而生。
..................
1.2课题的研究意义及发展现状
网络数据库中含有海量庞大的学术信息,用户可以查阅的资源有很多,但用户想要充分利用起来有所难度。比如,如果想要了解计算机图像处理领域的发展历史,研究内容有哪些,研究方向有哪些,本领域主要运用的研究方法,该领域的发展前景,与其他领域学科的联系以及在本领域撰写论文需要注意的问题等,这些都需要通过查阅大量的参考文献后进行总结概括,整个过程比较繁琐并且耗时较多。
目前,对于这种文献资料的深层次处理,知识的再发现方面,所做的工作不是很多,许多工作还需要人为手动的去操作,消耗了大量的人力资源、物力资源。得到这些HTML格式的学术网页并且对网页中的关键信息提取以及接下来进一步的自然语言处理显得异常迫切。
自然语言处理不仅是语言信息处理的一个研究方面,更是人工智能的一个重要核心课题,主要是为了使人类与计算机的交流通信更加方便。
由于自然语言的灵活多变性,再加上计算机的本身特性,如规范的逻辑特点、指令式操作,使得自然语言处理技术较为复杂。但是通过研究学者多年不断地努力,NLP技术取得了明显进步。现在,它的主要范畴包括文本分类,文本朗读/语音合成,语音识别,自动摘要,中文的自动分词,句法分析,问答系统,信息检索,词性标注,自然语言生成,机器翻译,文本校对、信息抽取以及文字蕴涵这几个方面。
...................
第二章科研文献的结构分析
2.1科研文献的概念及特点
2.1.1科研文献的基本概念
科技文献,从广义角度讲是以符号、音频、文字、图形、视频等手段记录着科技信息、知识记录的纸张、胶片、磁带、光盘及一些网络资料的物质实体。本文所提到的文献是科技文献的所属部分,主要是指对将研究到的具有创造性的研究成果进行相关理论分析,最终得出结论的科技学术文体,也就是科研文献。本文所指的科研文献,是狭义上的概念,主要是指“文章类”的科技学术文体。
2.1.2科研文献的主要特点
科研文献具有比较明显的学术特点,具有科学性、创新性、理论性和综合性。科研文献主要是为了将创新性的理论成果,通过文字表达保存下来,通常是面向某一具体领域的理论、研究、创新或者应用的科学性的表达,代表了科技的发展方向,能够预测科技发展的未来,准确把握科技前沿。
通过了解文献的结构特点,可以得出文献的信息主要分布在文章标题,摘要,关键词,正文。本文主要是针对文献简短的元数据分析从而总结出科技的研究发展趋势,成为研究人员科研的有价值的参考依据。科研文献的信息分布直接决定本文研究所针对的相关模块,从而得到不同信息的元数据。本文主要是提取文献的核心信息,即期刊名,卷期,页码,发表日期,提取部分文献内容信息,即标题,作者,摘要,关键词。上述结构中均含有文献的核心信息,如标题,标题简洁明了,能够突出文献主题,研究的创新点,研究过程中使用的方法等。
.................
2.2科研文献的结构
一篇完整的科研文献,结构包括两个方面:文献基本信息和文献内容信息,这是科研文献的核心文本。文献基本信息包括期刊名,卷期,页码,发表日期。文献内容信息主要包括标题,作者,隶属/单位,摘要,关键词,正文,致谢,参考文献等几个部分。
(1)文献基本信息
主要用于显示文献发表在期刊上的基本信息,发表时间,所在位置等。
(2)文献内容信息
标题,即题名,使用最简洁准确的词组表达出整篇文章的中心主旨,使读者能够迅速理解文章主题。
作者,通常又称著者署名,是指在科研研究、实验、文献框架构思及内容撰写等方面做出贡献的人,并且能够对文献的主要研究内容进行解释说明,是文献的主要负责人。隶属机构/单位,作者的工作单位和通讯地址。
摘要,主要揭示文章的层次结构,简明扼要的表明文献的重要内容。摘要一般应包括课题研究内容、研究方法、所用到的理论知识、课题结果及结论,也就是,你做了什么,采用的何种方法/理论,得出何种实验结果,最终得到的结论如何。
关键词,一般是单词、词组或者术语,主要反映文献涉及领域,所用技术等特征。正文,国家标准对撰写科技论文有着具体的要求和规定,正文必须准确鲜明生动。
主要涉及以下几个方面:课题研究对象,采用具体的理论,阐述所用的具体的研究办法,以及进行的实验,通过数据整理加工得到实验结果,从而形成结论。参考文献,撰写文献时引用到的相关图书资料。
..............
第三章相关技术介绍...........................................9
3.1 Web爬取......................................................9
3.1.1 Web爬取分类与策略..................................9
3.1.2 Web爬取的原理与技术..............................9
3.2 Web信息抽取技术........................................10
3.2.1 HTML页面解析..........................................10
3.2.2 Web信息抽取技术......................................12
3.2.3 Web信息抽取评价方法...............................15
3.3聚类过程.........................................................15
3.3.1特征选择与加权...........................................16
3.3.2相似度计算..................................................18
3.3.3聚类算法分析..............................................19
3.4本章小结.........................................................21
第四章科研文献网页的采集模块技术实现.............23
4.1任务提交端设计...............................................24
4.2服务器端设计...................................................25
4.3客户端设计.......................................................26
4.4爬取后的数据保存...........................................27
4.5本章小结.........................................................29
......................
第五章科研文献网页关键信息提取模块技术实现
5.1 Web信息抽取流程
为了实现对网络数据库的文献关键信息的提取,本节以信息抽取的理论为基础,结合本课题的实际需求,将技术加以改进,实现对网页信息的提取保存。为了信息抽取的方便,第四章中网页采集得到的文件以TXT格式进行保存整理,实验中所提取的对象与我们日常生活中所看到的科研文献不同,这里所说的TXT文件,是含有科研文献的当前网页的所有信息,所以在提取时需要去除不必要的信息,从而提高抽取信息的效率。课题所要高效准确从Web文档中提取出有效地文本信息,主要是文献的基本信息,包括期刊名称(JTitle)、期刊的卷期(Volume)、年月(Date)、原页码(Page),文献的内容信息,包括文章的标题(Title)、作者所在单位(Address)、作者(Author)、文章摘要(Abstract)、文章关键词(Keyword)。
通过对网页内容及HTML格式的研究,结合本文对科研文献所要提取的信息的具体分析,得出的网页信息抽取的主要流程。
5.2 Web信息抽取模型
由于外文数据库网站的规范化,科研文献所在页面的结构的相似性,又因为对象的选取都保存在同一个数据库中,因此,可以对所有网站页面使用同样的信息提取方法,不需要进行页面相似度计算,直接就可以使用同一个模板来处理。信息抽取首先要识别网页正文信息,通过查看要提取的信息位置以及文档的HTML结构特点,可以先去除不需要的信息块。这样在信息提取前去除不需要的噪音信息,提高抽取的准确度。
......................
总结与展望
网络数据库中含有海量庞大的学术信息,各种网络数据库都将学术信息进行了保存,所展示的信息量也十分庞大,如何提高数据的利用效率,知识的再次发现利用成为了当今科研文献研究的一大热点。科研工作者们对此的研究也一直在继续,为科研文献的自然语言处理的发展做出了贡献。为了对整个语言处理过程进行研究,给科研工作者一个学术参考的方向,本文从使用广泛的、国际性的、科学的网络数据库中对科研文献网页进行采集,并且对获取的网页的关键信息进行抽取以及后期数据的分析进行了研究,在理论研究的基础上取得了一定实际成果。
本课题是针对外文文献数据库进行的上述图示的研究,主要包括以下几个方面:
(1)学习研究网页采集的方法,设计了网页爬取模块,主要包括客户端模块,任务提交端模块,服务器端模块,任务提交端提交爬取任务到服务器模块,服务器自动分配任务到每个客户端进行爬取。最终将外文数据库中所需要的文献爬取下来,并保存到数据库中。
(2)研究分析了现有的Web文本挖掘的网页信息提取技术,并且学习掌握HTML文档的结构特点,通过分析讨论各种方法的基本思想,结合本文需要处理的网页的HTML结构特点,最后设计出一套能够自动提取有效网页元数据的提取模板,最终通过实际数据证明了模板的有效性。
(3)得到的网页元数据,数据格式并不完全统一规范,需要先对文本进行去除无关空格,无关字符等处理,为了进一步提高后期文本聚类的准确率,采用波特词干处理的方法对文本进行词干处理,提高了Web文档的利用价值。.......
参考文献(略)