1绪论
1.1研究背景
近年来,生命科学的快速发展使生物医学文献数量急剧增长,据统计,PubMed(生物医学文献检索系统)的文献量已经达到近2千万,海量的数据一方面为研究人员提供了丰富的资源,另一方面也为知识的检索和理解带来了巨大挑战。在PubMed中,一个生物医学概念可以检索到大量的文献,一个常见疾病如Crohn, 5disease(克隆氏病)可以检索到34206篇相关研究论文,一个人类基因如ACTAI也能找到101篇参考文献,逐一阅读相关文献将耗费研究人员大量的时间和精力。因此,如何自动整合生物医学概念的相关资源,使用户能快速掌握查询概念的相关信息这一问题被越来越多的生物医学研究人员关注。
自动摘要 (Automaticsu~而zation)是从一个或多个文档中整合出重要信息的自然语言处理技术,是对文本内容进行自动概括和精炼的过程,能利用较少的语句概括文本的主要信息,使用户对文本内容有快速的认识。自动摘要技术一直是文本挖掘领域的一个重要的研究课题,在文本挖掘和信息检索领域有很多方法的探索,而在生物医学领域类似的研究还比较少。而在生物医学领域,很多数据库都是由生物医学研究人员人工进行维护的,有些数据库中提供了生物医学概念的描述信息(如EntrezGene数据库提供了人类基因的描述信息),这些信息需要数据库管理人员查阅大量的参考文献归纳总结而来,需要大量的人力物力完成。而将自动摘要技术应用于生物医学文本挖掘中有助于提高研究人员查阅和分析相关资料的效率,能帮助提供生成摘要的相关参考信息,减少研究人员查阅论文的数量,快速理解和掌握生物医学概念的相关信息。
2自动摘要研究现状
1.2.1文本挖掘领域的自动摘要研究现状
按照文摘与原文的关系,自动摘要技术可以分为抽取型摘要和概括型摘要I2]。抽取型文摘是将文本作为句子的线性组合,将句子作为词的线性组合,评价句子的权重,选取权重较高的若干句字作为候选摘要句,并将这些句子按照它们在原文中出现的顺序输出出来。概括型摘要是依靠人工智能技术,特别是自然语言理解技术为基础而发展起来的文本自动摘要方法。这种方法与抽取型摘要技术有明显的区别,在对知识的利用方面,它不仅需要利用语言学的知识获取语言结构,还要利用特定领域知识进行判断、假设、面向概念查询的生物医学多文档摘要技术研究推理,得到文章的意义表示,最后从意义表示中生成摘要。本文研究的主要是抽取型摘要技术,主要对近年来这个领域的相关研究进行总结。
在现有的基于查询的文本自动摘要技术中,摘要句的排序和选取主要依据句子和查询词的相似度计算得出。选取的特征包括:词频,句子在文档和段落中的位置,线索词和标题词等。具体来说Luhn[3]引入词特征来解决自动文本摘要,Edmundson等人l4]选取词频、与标题的共现、位置以及线索词四种特征的线性融合来抽取摘要。Radev[5l等人和Mihaleea[6]等人将摘要句抽取看作句子分类问题;McKeown和Radev[7]通过一个事件的多篇相关报道来生产事件的摘要;Hovy[s1通过定义句子中的基本单元(BasicElement),以基本单元为特征计算句子的重要性。MEAD[9]是通用领域的多文档摘要工具包,抽取的特征包括位置、词频和文档聚类质心等特征,目前MEAD的开源己经更新到3.12版本。
在这些方法中,通过选用不同的词特征和相似度计算方法,从不同的角度衡量句子的重要程度。然而,上述方法中,相似度计算是基于词或者词串的,而非语义层面的。在计算相似度是主要根据查询和候选句的词共现,没有考虑语义级别的相似度,限制了摘要性能的提高。2.2生物医学领域自动摘要研究现状
1.2.2生物医学领域自动摘要研究现状
在生物医学领域,自动摘要技术结合生物医学资源在很多方面都得到应用。近年来,生物医学文献数量呈指数级激增。据统计,PubMed(生物医学文献检索系统)的文献量己经达到近2千万,而如此庞大的数据对于生物医学专家查找所需的信息是一个巨大的挑战。自动摘要技术可以抽取出给定查询概念的主要信息,比如查询某个基因或疾病,帮助研究人员快速了解查询概念的主要内容。目前生物医学领域的摘要总的来说是从研究人员的需求出发,针对生物医学语料的特点,开发出的结构化或半结构化摘要。
Ling等人开发的基因摘要系统是依据生物医学结构化的数据,利用机器学习的方法抽取基因的六种属性,如基因产物 (geneproduets)、DNA序列 (DNAsequenee)等生成特定基因的摘要。在他们的系统中,句子排序的依据是包括与基因某属性的相关程度、与所在文档的相关程度以及在文档中的位置。Reeve[’2]等人先通过生物医学领域概念的各段落中出现的频率确定文章内容的重要部分,再用UMLS资源将生物医学文本中的概念组成词汇链 (Lexicalchain),来刻画文章的主要内容。Fiszman[’3]等人利用信息抽取技术把文档中与查询概念最相关的生物医学实体和关系抽取出来,生成一个语义关系网络作为给定查询概念的摘要,这种摘要可以让用户直观的了解与查询概念相关的实体,以及他们之间关系的类型。wor肋lan等人利用一系列特征和模板文献中抽取出疾病在基因病理学上相关联的致病基因,用以辅助基因数据库的维护。workman等人还扩展了的方法,通过融合KL距离、则ogF和Predscal等方法自动识别生物医学文本的重要信息来生成摘要。跟传统基于信息检索技术的摘要方法相比,基于语义知识的摘要能对生物医学文本从语义层面分析理解,抽取出语义只是相关的信息并利用这些信息生成更高级的摘要。但是,上述提到的方法跟传统的摘要不同,并没有生成文本摘要,因此也不能利用传统的摘要评价方法对它们进行评价。
由于摘要的性能在很大程度上受句子排序结果的影响,所以句子的相似度计算策略是摘要的重要环节之一。现有的查询词和句子相似度的计算方法主要是基于词或概念共现级别,很少考虑语义层面的信息,这会造成摘要句语义上的重复甚至引入不适当的摘要句。因此,本文尝试引入生物医学语义信息,利用生物医学语义关系的过滤和选择来提高摘要的性能。方法分三步:1)利用语义关系抽取工具semRePf对文本进行语义关系表示;2)通过一系列策略对一个给定查询的相关语义关系进行筛选;3)根据我们改进的相似度计算策略进行句子排序和摘要生成。实验结果表明,引入语义关系信息能使生成的摘要覆盖更全面的语义信息,提高生物医学文本摘要的性能。
2相关知识及评价方法.................................. 4
2.1生物医学相关知识.............................. 4
2.1.1一体化医学语言系统............................. 4
2.1.2semRep..................................................................... 6
2.1.3MeSH...............................................................................7
2.1.4MEDL1NE...........................................................................................8
2.2评价方法.................................................................................................... 9
2.2.1自动文摘评价方法分类.............................................................. 9
2.2.2常用自动摘要评价方法........................................................... 11
3基于语义关系抽取的疾病摘要生成............................................................ 13
3.1生物医学语义关系抽取和筛选............................................................ 13
3.1.1语义关系抽取工具SemReP......................................................... 13
3.1.2语义关系筛选............................................15
3.2基于语义关系的摘要抽取和生成........................................................... 19
3.2.1句子排序................................................................. 19
3.2.2摘要生成.....................................................................................21
实验与结果分析................................................................................ 22
3.3.1实验设计........................................................................................ 22
3.3.2不同摘要方法的比较................................................................... 23
4基于排序学习的基因摘要生成............................................25
4.1特征选择...................................................................................................30
大连理工大学硕士学位论文
4.1.1基因本体相关性...................................................30
4.12主题相关性................................................................ 32
1.1.3TextRank.........................................................................................33
4.2排序学习................................ 34
4.3实验与结果分析....................................... 36
4.3.1语料..................................................................................................36
4.3.2实验过程...................................................... 36
4.4本章小结................................................................................................... 38
结论.................................................................................................................. 39
参考文献............................................................................................................. 40
结论
论文将自动摘要技术和生物医学领域知识相结合,研究了生物医学疾病和基因自动文本摘要生成的算法,根据两种概念不同的特点,分别使用语义关系抽取算法和排序学习方法进行文本摘要抽取和生成,并在这两种方法上分别进行了实验以及分析讨论,生成的生物医学概念有助于研究人员快速了解掌握查询概念的相关信息。
在疾病概念的自动摘要任务重,本文提出了一种基于语义关系抽取的生物医学疾病概念的多文档摘要生成算法,通过把文本挖掘和信息检索领域的自动摘要技术与生物医学语义关系信息结合起来,生成的摘要能从语义层面较全面的覆盖查询疾病概念的多方面信息。文章中通过语义关系的获取、扩展和筛选,得到查询概念重要的语义关系,然后利用自然语言处理技术找出最能代表这些语义关系的句子组成查询概念的摘要。实验中分析了24种常见病,生成的文本摘要句子涉及了致病原因、类型、防治策略等语义类型。实验结果表明,利用语义关系特征抽取摘要的方法能提高摘要的性能,且由于增加了生物医学语义层面内容,使生成的摘要更符合研究人员的查询需要。
在基因摘要生成的任务中,我们也结合了信息检索技术和生物医学资源,使用了三种特征,即基因本体相关性,LDA主题相关性以及TextRank全局得分对候选摘要句的重要性进行判别。我们采用排序学习算法从训练集中自动学习特征权重向量用于对测试集中的句子打分进行预测。我们使用了NCBI开发的EntrezGene数据库作为语料进行实验,实验结果表明,使用排序学习组合三种特征生成的基因摘要的性能好于现有的MEAD系统的自动摘要结果。同时,排序学习方法有利于基因摘要句排序问题的有效特征的扩展,为引入更多有效的句子重要性评价特征提供便利。
在今后的研究中,基于语义关系抽取的方法应该对命名实体识别、语义抽取、语义相似度计算几个部分进行研究,提高各个部分的性能将有助于提高摘要整体的效果,还可以扩大应用的范围,如面向基因产物或药物进行多文档摘要的抽取,来进一步验证方法的有效性。而基于排序学习的方法可以对句子排序特征深入研究,引入更多的特征,如BM25、语言模型等,寻找更多有效的特征或特征组合。