代写计算机论文参考:面向地址领域的中文命名实体识别方法思考

发布时间:2024-01-28 10:09:14 论文编辑:vicky

本文是一篇计算机论文,本文根据地址领域中文命名实体识别的特点,提出了基于词典增强的地址命名实体识别模型和基于标签对比编码的地址命名实体识别模型,并通过实验证明了模型在地址领域的命名实体识别任务的有效性。

第 1 章 绪论

1.1 研究背景及意义

随着互联网技术的不断发展和普及,各类数据都出现爆炸式地增长。在大数据背景下,如何利用自然语言处理技术使得计算机理解、分析处理海量文本数据,并从中挖掘出有价值的信息已经成为被广泛关注的问题。

命名实体识别任务是从一段文本中识别出具有特定含义的实体,并将实体划分为具体的类别。识别文本中的实体是计算机理解文本内容的基础,能够辅助计算机进一步理解文本的深层次语义。因此在许多下游自然语言处理任务中,命名实体识别发挥着巨大的作用。在信息检索任务中,命名实体识别可以在冗长的检索文本中定位关键词,减少其他信息的干扰;在问答系统中,命名实体识别所定位到的实体可以帮助机器概括文本主题,识别用户意图;在信息抽取任务中,命名实体识别也是实体抽取和属性抽取中必不可少的组成部分。

中文地址是一串包含省、市、区(县)、街道、乡镇、道路、门牌号、住宅名称、商业大厦、机构名称、地标建筑、楼栋片区、楼栋号、楼层号和房间号等地址实体的连续文本序列。一个有效的中文地址应该具有唯一的表述,并可以通过这种表述快速、准确地定位到某一个地理位置实体[1]。作为社会公共信息和地理信息中的重要成分,地址在国家治理、经济建设等多方面都发挥着不可或缺的作用[2]。2019年,国家自然资源部发布了《智慧城市时空大数据平台建设技术大纲》,明确提出了建设标准、完善和系统的地址信息库和实现精准、高效的地址匹配技术的要求[3]。地址命名实体识别是从地址序列识别出多个地址实体,并判断地址实体类别的过程。作为地址信息化建设的基础环节,地址命名实体识别为地址要素解析、地址匹配和地址标准化等下游应用提供重要的支撑作用,在城市规划、房产管理、土地利用、交通运输和经济建设等领域有广泛的应用前景[4]。

1.2 国内外研究现状

1991年,Rau等人[5]提出了一种从文本中识别公司名称的系统,命名实体识别的概念首次被提出。经过三十年的发展,众多学者在命名实体识别领域进行了大量的探索,解决了领域内一系列难点,不断地提升了命名实体识别的效果。整个发展历程大致可以分为三个阶段:基于规则和词典的命名实体识别、基于统计学习的命名实体识别和基于神经网络的命名实体识别。

1.2.1 基于规则和词典的命名实体识别

传统的基于规则和词典的方法,需要构建一套由专家制定的规则库以及包含实体词语的词典,然后利用字符串的匹配规则从文本中匹配出满足要求的命名实体。目前最流行的匹配规则为最大匹配算法(Maximum Matching,简称MM),其原理为将切分出的字符串与词典中词语进行比对,如果字符串有含义则记录实体,否则增加或减少一个字符继续比较,直到只剩一个字符为止。根据匹配的方向的不同,最大匹配算法主要分为正向匹配算法、逆向匹配算法和双向匹配算法这三种。张小衡等人[6]在进行命名实体识别时,对不同类型实体的组成特点进行了深入分析并针对这种特点制定匹配策略,取得了较好的成绩。张雪英等人[7]根据地址实体的构词、句法等特征,构建特征词库来辅助地址命名实体识别。程昌秀等人[8]构建了标准地址库,利用专家制定的匹配规则进行实体分割和实体识别任务。

第 2 章 相关理论基础

2.1 命名实体识别概述

2.1.1 基于序列标注的模型

命名实体识别任务最常见的解决方案是被当作序列标注问题来进行处理,即输入一段文本序列1 2 3{,,,...,}nc c c c,其中ic表示文本序列中第i个字符,n表示文本序列的长度,输出一段标签序列1 2 3{,,,...,}ny y y y,iy Y,其中iy表示ic对应的标签,Y为有限标签集合。将命名体识别任务转化为序列标注问题,并借助端到端的seq2seq模型,可以一次性解决命名实体识别所依赖的实体分割和实体类别检测两个问题。

计算机论文怎么写

如图 2-1所示,利用BMES这种标注策略对原始标签集合{ PER,POS,ORG,O }进行预处理,从而得到有限标签集合{B-PER,M-PER,E-PER,B-POS,M-POS,E-POS,B-ORG,M-ORG,E-ORG,S-PER,S-POS,S-ORG,O}。输入文本序列后,命名实体识别系统中的序列标注模型会为输入的每个字符标注一个标签,相当于对每个字符进行一个k(其中k为有限标签集合的大小)分类任务,然后再经过后处理系统从带有标签的文本序列中解析出相应类别的实体,从而实现命名实体识别技术。

2.2 中文命名实体识别模型

中文文本序列中的词语之间缺乏间隔,两阶段的先分词再实体识别的解决方案会带来误差传递的问题,影响模型的识别效果,因此基于字符嵌入的中文命名实体识别模型被广泛应用。根据神经网络类型的不同,中文命名实体识别模型大致可以分为基于循环神经网络的模型、基于卷积神经网络的模型和基于自注意力网络的模型。本章节从这三个方面,分别介绍近年来中文命名实体识别模型融入词语信息的方式。

2.2.1 循环神经网络

在处理中文文本序列时,基于字符嵌入的神经网络模型会忽略边界信息和词语信息。例如“西边”和“西湖区”中的“西”字显然是不同的含义。在字符“西”上加入“西边”这个词语的向量表征,那么这个“西”就是一个方向词;在字符“西”上加入“西湖区”这个词语的向量表征,此时“西”就倾向于是行政区划的区/县。词语信息的加入可以丰富字符的语义信息和边界信息,帮助命名实体识别更好地进行实体分割和实体检测任务。

2018年,Zhang等人[33]改进了LSTM模型,提出了一种在编码的过程中动态引入外部词典的结构Lattice-LSTM。如图 2-6所示,Lattice-LSTM模型在输入文本序列的两个字符之间加入一条额外的词语信息传递路径,将词语信息补充到字符单元的细胞状态中去,通过训练让模型自动寻找更有用的词语,该模型当时在不同领域的多个数据集上都获得了最优的结果。

第 3 章 基于词典增强的地址命名实体识别模型........................ 26

3.1 引言 ................................... 26

3.2 模型思想及框架结构 ....................................... 26

第 4 章 基于标签对比编码的地址命名实体识别模型............................ 48

4.1 引言 .................................. 48

4.2 基于孪生网络的标签对比编码方法 .............................. 49

第 5 章 总结与展望................................. 61

5.1 本文总结 ..................................... 61

5.2 未来展望 .................................... 62

第 4 章 基于标签对比编码的地址命名实体识别模型

4.1 引言

第三章提出的基于词典增强的地址命名实体识别模型,通过改进表示层来补充词语信息以及改进编码结构来增强语义编码,在一定程度上模型可以融合词语信息和边界信息,从而改进模型识别效果。但是地址命名实体识别是一个实体密集、实体类型繁杂的任务,每一个地址序列都可以划分为省、市、区、县、商业地标、住宅小区、行政机构、楼层、房间号等许多细致明确的实体,在这种复杂场景下,某一个实体类别内部会存在多种多样的实体,不同的实体类别之间也会存在相似程度高的问题。实体标签信息的加入以及标签信息之间的区分性可以更好地辅助实体分割和实体检测任务,提升模型的识别效果。

目前,已经有一部分工作开始将标签信息加入自然语言处理的相关任务中,并在一定程度上证明了标签信息的有效性。Wang等人[50]在文本分类任务上建模文本的标签信息和文本序列的相关性,利用注意力机制为文本分段分配不同的主要性,从而更好地学习文本表示。Guan等人[52]将标签信息引入语义角色标注任务中去,使用关联记忆网络进行词向量和标签向量的拼接,以提升模型效果。Kato等人[54]通过对实体标签的分解和组合来共享标签嵌入矩阵,在英语、日语等领域的命名实体识别任务上提高了性能,并在低频标签类别识别上有一定的有效性。Luo等人[53]在命名实体识别任务中,利用标签注意力机制考虑字符的贡献度大小,从而生成句子的全局表示,然后在每个时间步融入句子级别特征,去补充全局信息。

计算机论文参考

第 5 章 总结与展望

5.1 本文总结

命名实体识别任务可以自动地从大规模文本抽取出特定类别的实体,方便相关人员迅速获得文本重点,同时也是信息检索、知识图谱等下游任务的基础。随着机器计算能力的提升和深度学习技术的进步,命名实体识别技术得到了极大的发展。但是命名实体识别在不同的语种和细分领域下,数据集的文本特点呈现各异性,统一的模型算法难以在不同的场景下发挥有效的性能。面向地址领域的中文命名实体识别方法主要是利用自然语言处理技术从地址序列中识别并解析出各种细粒度地址实体。目前地址命名实体识别主要面临三大问题:一是如何高效地融入领域词语信息从而去解决中文地址语料词语之前不存在天然间隔的问题;二是地址领域存在很多嵌套实体,现有模型识别效率不高;三是地址标注数据有限但实体分布密集、实体类别繁杂,容易出现实体类别混淆的情况。针对以上问题,本文对地址领域的中文命名实体识别方法展开研究,论文工作主要包含以下几个方面:

(1) 针对中文地址序列词语之间不存在天然间隔,且嵌套实体较多的问题,提出了一种名为Contextual-based SoftLexicon的地址命名实体识别模型。该模型的基准模型为SoftLexicon模型,SoftLexicon模型在基于字符嵌入的基础上融入领域内的外部词典,为模型提供了更多的语义信息,因此比基于字符嵌入的模型具有更好的识别效果。Contextual-based SoftLexicon模型在此基础上进行了改进,先是加入了候选词语发现网络,利用卷积神经网络的局部注意力,为每个词位的词语集合中添加候选词语,实现缺失值填充和新词发现的作用,削弱模型对有限词典的依赖;然后使用词典信息融合网络,综合上下文信息来决定词语权重,并实现外部词典和候选词语的融合;最后引入ON-LSTM作为编码器,将地址序列的树形层级结构信息融入模型的编码过程中,缓解地址领域存在的嵌套命名实体问题,实验结果表明,该模型在真实地址标注数据集、开源地址数据集和MSRA NER数据集上都取得了不错的效果,与基线模型相比,该模型在两个地址数据集上评估指标都有1%~2%的提升。

参考文献(略)