第1章引言
1.1研究背景与意义
1.1.1研究背景
中医古籍文献(下称医古文)是中华民族几千年来防病治病宝贵经验的结晶,是中华民族优秀文化遗产的重要组成部分,不仅传承了中医药学理论知识,而且大量的经验方直接指导临床。目前,医古文数字化的实际应用还显不足,主要是医古文中知识的挖掘不能更好地直接服务于用户。
目前研究面向医古文的研究包括规则挖掘、命名实体识别等。在规则挖掘的研究多基于已获得语义标注的医古文,并根据统计方法发现不同标注类别术语之间的关系,如某方剂与某些中药的关系。医古文中命名实体识别的研究多基于大量的人为标注的训练语料利用现有的统计模型来完成。由此发现,将医古文由自由形式的文本转化为规则化的中医知识是面向医古文研究的重点。其中,语义标注技术(SemanticAnnotation,SA)是实现这一目标的途径之一。
SA是自然语言处理领域中的基础性技术之一,而针对SA也有多种定义,其中,语义标注平台KIM的创始人Borislav Popov认为语义标注是一个特殊的元数据生成和使用的模式,目的是吸收新信息并扩展现有信息。
SA规范地定义了文档中概念和概念之间的关系,且其根本的目的就是被计算机所用。在这个过程中主要的两个任务是:规则化标注并链接在文档中的实体;索引并找到包含该实体的文档。除了KIM外,还有很多采用不同方法、针对不同领域的语义标注平台(SemanticAnnotation Platform,SAP)。根据SAP使用的方法的不同,对SAP进行了总结。
.............
1.2本文的主要工作
本文以得到医古文语义标签(类别标签)为目的,共须完成以下几项主要工作。
(1)明确具体的标注任务
对于语义标注任务,首先要明确需标注的类别以及对象。本文结合领域专家提供的术语分类及现有语料,分析了本文需要标注的术语的类别、特点等属性。将需标注的术语类别分为名词性术语(描述特定事物名称)和叙述性术语(描述特定事物属性)。
(2)名词性术语标注
该类的标注方法主要借鉴于命名实体识别的方法。由于带监督的学习方法需要以大批量的标注语料作为基础,因此结合任务本身的情况,本文选择基于半监督学习的Bootstrapping方法来实现名词性术语的标注。本文提出了一种命名为Barpimisk的方法,旨在利用简单的上下文特征来代替原Bootstrapping中的词法信息、句法信息,这样不仅可以简化整个Bootstrapping过程、提高效率,也减少了很多中间处理过程中的累积错误对最终结果带来的影响。同时,为保证识别结果的可用性,本文提出在迭代过程中融入用户智能的Bootstrapping框架,在提高识别准确率的同时能够很好的解决Bootstrapping算法中常见的语义漂移(Semantic Drift)问题。所谓语义漂移是指,在没有人工干预的情况下,迭代过程中抽取出的词语通常会迅速地远离原有词语集合的意义。
(3)叙述性术语的标注
分析叙述性术语的特点发现,该类术语多以句子或句子中子句(并称为短句)的形式出现,因此可将叙述性术语的标注问题转化为医古文中短句的分类问题或标注过程中可借鉴上下文信息的序列标注问题。本文分析了两种转化方法的利弊,同时通过分析和实验验证了不同参数对标注结果的影响。
....................
第2章相关研究
本章首先介绍了语义标注的相关研究,其次介绍了面向医古文的语义标注研究及其应用,并明确了医古文语义标注与其他深层研究的联系。
2.1语义标注的相关研究
如果缺少类别信息,对其研究只能建立在大量的人为干预或仅停留在简单的统计层面,语义标注正是获取自由文本类别信息的方法之一。SA作为自然语言处理领域中的基础技术,其结果广泛应用于数据挖掘等各种深层研究与应用中。
根据SA所使用的方法,可将其分为人工标注、自动标注两种。而后者又可分为基于模板、有监督以及无监督的学习三种。例如,KIM是采用基于规则的方法,利用模板进行标注的;MnM以标注完成的语料为基础,采用有监督的机器学习方法进行标注;而中介绍了一种面向特定领域的、基于Bootstrapping算法的无监督学习方法。
基于规则的SA往往需要利用大规模的语料来弥补规则不足带来的低覆盖率;而无监督方法很难保证识别的准确率。目前的SA算法及平台多基于大规模语料(如Web)并面向通用领域。
识别出多种实体在文本中的提及的任务被称为命名实体识别与分类(Named EntityRecognition and Classification,NERC)。NERC是SA使用的重要技术之一。
早期的研究多基于手写的规则,最近的则集中于利用带监督的机器学习(Supervised Learning,SL)来自动的生成基于规则的系统,或者利用基于大量训练实例的序列标注算法。
根据NERC使用的学习方法将其分为无监督、带监督、半监督以及三类NERC。典型的无监督NERC就是聚类法,该方法建立在句法分析、领域资源、领域模板以及大量的未标注语料上。该方法很难保证识别结果的准确性。
.....................
2.2面向中医古籍文献的研究
医古文作为我国中医文化精华的载体,针对其分析和处理也引起了越来越多学者的关注。目前中医领域的研究一方面是中医现代文中命名实体(方剂名称、中药名称等)的自动识别,该方面的研究属于语义标注范畴。如文利用Bubble Bootstrapping的方法,抽取了中药复方名称、疾病名称以及副主题词,在此基础上结合基本的统计功能,搭建了用于检索、分析的系统。但是该文中Bootstrapping算法不能加入用户智能,同时以领域专家整理好的半格式化的现代文作为输入语料,而不是自由文本。文也利用了Bubble-Bootstrapping的方法,并结合CRF,完成了现代中医文献中疾病名的抽取。
另一部分是基于人工标注或简单统计基础上的关联规则挖掘。文、文及文的研究以领域专家构建的处方数据库为基础,获取了中医领域多类术语的关联规则,区别在于文、文侧重于挖掘算法的改进,而文对原有数据库进行了严格的预处理,并提出了一种基于特征加权的关联规则分类算法。文采用了人机互动的方式分析医古文,即首先由用户将医古文排版、解析,之后再由计算机系统对规则化的数据进行关联分析。
可见,以上这些基于人工标注结果的研究不但其效率难以保证,同时由于效率问题,也大大制约了深层研究的范围。
文搭建起了一个中医领域的人机交互平台,平台中利用规则和计算机的统计功能,分析了少量医古文中的联系和规律性。由于缺乏对机器学习的使用,系统缺乏智能性,用户的参与也不能被系统吸收,而只是简单的挖掘过程。
...................
第3章名词性语义标注......................................8
3.1 BOOTSTRAPPING算法...........................8
3.2 BARPIMISK BOOTSTRAPPING...........10
3.3基于人机交互的BARPIMISK....................13
3.4本章实验与分析.........................................15
3.5本章小结.....................................................21
第4章叙述性语义标注.....................................22
4.1叙述性标注的任务转化..............................22
4.2叙述性标注特征的分析..............................25
4.3本章实验与分析..........................................29
4.4本章小结.....................................................33
..........................
第5章中医古籍文献语义标注系统的设计与实现
本章节主要讲述医古文语义标注系统的设计与实现,系统实现部分主要包括方药名称标注以及症状、病因、病机标注两大模块内容,这两个模块中分别包括对应内容的标注、校对、检索等子模块。
5.1系统设计
本文将标注系统分为两大模块:名词性术语标注以及叙述性术语标注。
5.1.1名词性术语标注模块系统设计
在标注名词性术语时,利用了第三章中介绍的、本文提出的Barpimisk Boots-trapping方法,同时在系统中加入了用户的智能,在系统不断吸收用户智能的过程中,扩充系统现有知识,实现递增式的标注效果。
(1) 初始:在该步骤中,自动匹配所有出现在待标注医古文中的正确种子以及之前导入的初始种子,并将匹配得到的种子集合返回给用户,再由用户对初始的种子进行筛选,以满足 Bootstrapping 算法对初始种子的要求。
(2) 迭代:该步骤由两个操作组成,首先利用用户筛选好的种子进行模板匹配、打分,之后利用挑选出的模板集合匹配新的候选种子,并将候选种子集合返回给用户再做筛选。如此循环往复,直至用户停止迭代。
(3) 标注:根据初始和迭代两个过程选择出的种子,对待标注的医古文进行标注,并将结果作为算法自动标注的结果存入古籍知识库。并将结果供校对步骤使用。
(4) 校对:利用用户的智能对自动标注的古籍进行校对,并将校对获得的种子存入种子知识库;将校对后的古籍作为人工修改的正确标注结果存入古籍知识库。
.....................
结论
随着人们保护历史文献意识的觉醒,对于医古文的保护也逐渐被人们所重视。对于医古文的数字化已经取得了显著的成效,但是在知识化方面尚存在很多不足。为了更深层的分析自由形式的医古文,首要就是得到古文中的术语信息,进而才能研究不同术语集合之间的关系及个体术语之间的关系(关联规则挖掘)及实现医古文的语义检索等等。很多面向现代文的技术对于医古文来说,都不适用,这样的特殊性迫使研究者必须根据医古文的自身特点来考虑其语义标注问题。本文正秉承了这一思想。
全文的主要工作及得到的主要结论总结如下:
首先,对于医古文中的术语,需根据不同类别的特点对其的标注进行分别处理。本文将需标注的术语按其内容特点分为名词性术语及叙述性术语,前者类似命名实体识别,后者则不然。实践证明,本文提出的分类方法是可借鉴的。
其次,对名词性术语的识别中,本文主要借鉴了命名实体识别中的Bootstrapping算法,改变了原有算法中对语料的预处理、初始种子的选择、模板匹配、模板抽取及迭代过程;改进了原有算法中对种子的打分,使打分公式更为合理有效。同时在Bootstrapping算法框架中加入了用户参与的环节,在不付出大量人力的基础上保证了语义标注结果的准确性。本标注框架将自动标注结果与用户智能合并到一起,使两者起到相辅相成的作用,鉴于目前自然语言处理的整体水平,人机合作的模式也最为实用。同时本文提出的人机交互的Barpimisk Bootstrapping可应用于识别其他名词性术语,也可应用于其他领域中名词性术语的标注工作中。..........
参考文献(略)