本文是一篇计算机论文,本文设计与实现的面向用户体验的档案信息资源共享服务系统作为档案信息化的一部分,旨在为档案领域的智能化管理提供思路。
第1章 绪论
1.1 研究背景和意义
1.1.1 研究背景
随着大数据、人工智能等高新技术的迅速发展,档案工作是受到影响较大的领域之一,因此基于互联网技术的“智慧型档案馆”应运而生。在当今信息社会中,由于传统的档案服务方式已经满足不了人们对于多样化档案信息资源的利用需求,这就促使档案管理部门要及时步入信息化技术发展的“快车道”,创新并适应新时代档案信息资源的大数据分析与共享利用服务方式。
在信息时代背景下,对档案信息化建设工作带来了新的机遇与挑战,既有传统管理模式下的档案数据开发与利用,也涉及到档案数字化和电子档案知识库的建设,以及随大数据形成的智能化与个性化的档案信息系统的开发。事实上,随着人工智能技术的日益成熟,其价值所在是与档案领域紧密融合,根据数据分析对用户使用档案的行为进行预测和判断,从而提高人们的工作方式和工作效率。
2008年,IBM董事会主席Samuel Palmisano认为智能化正影响着生活的方方面面,并首次提出了“智慧型地球”这一新概念[1]。在此基础上,又先后出现了智慧型城市、智慧型社区、智慧型医疗等新事物,信息科学技术与智能化技术发展成为社会各行业蓬勃发展更新的必然趋势。而以科学技术进步为基础,以智能开发为保证,以共同社会效益为目标的“智慧型档案馆”也快速发展。
1.2 国内外研究现状
1.2.1 国内研究现状
近年来,档案信息化平台逐渐由信息管理模式转变为应用服务模式,由信息储存的XML元信息技术向知识管理和语义分析技术发展[10]。目前国内在档案资源集成式服务方面的研究成果主要有:梁孟华[11]聚焦中美电子档案的跨媒体融合现象,以用户为中心的档案信息共享模式,通过语义计算方式,打造面向用户的跨媒体信息综合服务平台。李婷[12]转变档案文化资源整合模式,分析基于档案文化实例分析的研究成果,并通过相关数据分析将档案文化数据转变为语义集成系统,以增强档案文化用户查找信息的效率。陶水龙[13]基于档案语义技术研究的探讨,运用语义相关技术,解析了档案资源挖掘功能及其对档案系统的构建方向。张卫东等[14]从档案资源整合角度出发,提出了“资源优先选用—技术方法研究—业务整合”的档案资源整合途径,这是一种满足多种服务模式和用户信息需求的集成。吕元智[15]分析档案服务领域需求无法满足档案知识服务现状,从用户档案行为视角入手,提出了基于用户行为研究的档案信息整合实现框架,从用户行为收集和分析、用户行为数据生成等方面提出服务。许和旭等[16]借鉴主流搜索引擎算法和功能,通过分词、权重分析等过程,基于Python语言的Django框架构建面向数字档案服务与利用的全文索引系统,实现对数字档案资源的内容检索。
除此之外,许多省市档案管理部门在档案整合与共享利用方面陆续推出了“异地查询,跨馆出证”等服务,并且在实践中获得一定成功经验。如四川省、江苏省、浙江省等各档案单位分别促进了本省高校的档案数据共享,并建立了区域性档案信息资源整合共享系统[17]。上海浦东新区档案馆与杭州市档案馆、宁波市档案馆加强合作,开展省际跨馆的利用档案服务,建立跨馆联动协作机制,构建服务平台,实现了省际间的民生档案资源共享[18]。青岛市档案局采用数据挖掘等先进技术建成青岛市电子档案智慧管理平台,实现对文书档案和其他门类档案电子文件在线接收、归档和共享利用[19]。广东跨馆档案查询应用系统是国内第一个采用目录交换与资源共享的跨馆查询系统,而福建省、辽宁省、湖南省等多个国家级综合档案馆也在探索和尝试档案信息资源共享建设,并且在异地查询、智能问答、智能推荐等多方面取得了不同程度的进展。
第2章 相关理论和技术分析
2.1 领域本体的构建方法概述
2.1.1 领域本体定义与构成
领域本体(Domain Ontology)是一个哲学概念,它是用来描述某一特定领域知识的概念或术语及其关系的集合。1991年,Neches等人首先将本体技术引入到人工智能领域,并确定了其是构成相应领域词汇的基础术语和关系,并基于上述基础术语和关系对领域词汇加以拓展。斯坦福大学的Gruber[27]提出了“本体是概念模型明确的规范说明”,表明在本体形成过程中概念模型占据核心地位。Studer [28]等人提出目前普遍认同的概念,认为本体包含了四个方面的特性,即信息模型(Information Model)、确定性(Certainty)、形态化(Morphosis)和共享化(Share)。陈德彦[29]等认为知识本体是通过对某个领域内所认可的知识、定义的特征、知识之间的语义联系和相应语义条件来表述这个范畴的知识。Lin, Yankai[30]等认为本体是对特定领域的知识、理论、实体及其关系的一种合理的、准确的模型化表述,并在分析自然语义检索的基础上,将本体融入检索系统中,用来改进操作界面和增加信息来源标引质量。Dou D[31]等从本体的概念溯源出发,从知识工程、图书情报等不同领域对本体的发展历程进行了概括与总结,提出本体是为了描述、捕获领域信息,明确领域内一致接受的理论和观点间的关联,并实现领域内的不同主体相互沟通和信息获取的形式化规范说明。
通常来说,领域本体由五部分内容组成:表示领域知识是现实存在的事物或抽象表达的概念(类),比如小学、电影、动物等;用于描述类或概念间的关联,有类或概念之间的局部-全局关系(part-of),类或概念之间的一般-特殊关系(kind-of),概念的对象与概念之间的关系(instance-of),某些概念是另一个概念的必然属性(attribute-of);表示关联上进行约束与推理的函数,包括了对称性、传递性;表示具体存在的事实,以及建立在关联上的公理,比如概念乙属于概念丙的范畴;表示类或概念中具体存在的实例,比如西北民族大学就是大学的一个实例。
2.2 知识抽取
知识抽取是指在具体的数据资源中提取实体及实体之间关联信息,并以知识三元组的形态加以保存的过程。对于档案领域来说,由于数据来源比较分散,其中档案目录数据由于有固定架构和格式,数据干扰较少,因此不需要进行数据清洗;其中非结构化数据,比如档案文本数据通常没有规范的数据组织方式,因此这些数据资源需要进行知识抽取,具体任务分为实体识别与抽取、关系抽取和知识存储。
2.2.1 实体识别
一般的档案管理系统在完成文档资源分类后,根据检索和利用率较高的文档外部特征,包括正题名、副题名、主题、关键字、时间等展开标引管理工作,并根据叙词表和文档关键词表展开信息的组织与管理工作。因此传统档案系统的功能没有语义层次的组织和联系,尽管设置了全文检索的功能,却没有实际意义上的语义搜索,也无法正确使用分词来判断知识单元,这是在数据的处理中缺乏知识层面的实体识别与抽取。
实体抽取即命名实体识别(named entity recognition,NER)是信息提取、知识检索等应用中一项很关键的工作,其目的是确定出目标文本中表示为命名实体的所有元素,并对它们加以分类,所以有时又叫做命名实体识别及分类(named entity recognition and classification,NERC)[37]。一般把命名实体识别任务转换为句子映射到标记序列的问题,通过检测每个字或者词的标记,联合检测实体范围和实体类型。
第3章 基于本体的档案知识库构建方法研究 .............. 21
3.1 档案领域本体的构建过程 .............................. 21
3.1.1 数据来源说明 ......................... 21
3.1.2 语料库构建 ....................................... 21
第4章 档案信息资源共享服务系统设计与实现 ............................. 33
4.1 需求分析 ...................................... 33
4.1.1 用户功能需求 ......................... 33
4.1.2 系统功能需求 ...................................... 33
第5章 总结与展望 .............................. 43
5.1 总结 ................................. 43
5.2 展望 .......................... 43
第4章 档案信息资源共享服务系统设计与实现
4.1 需求分析
需求分析是实现档案信息资源共享服务系统的前提条件,并贯穿于整个系统的实现流程,还需要在系统的运维过程中进行持续的反馈和完善。为了提高软件开发的工作效率和系统的服务质量,本文从用户功能需求和系统功能需求两方面进行分析。
4.1.1 用户功能需求
本文是甘肃省档案馆信息资源挖掘与共享利用服务工作的阶段性研究成果,以往档案检索仅局限于每个档案管理部门独立的数据库,无法提供统一的数据接口来实现高效率高质量的档案查询。建设档案信息资源共享服务系统,将原来散乱的档案信息资源整合起来,使档案信息不再受时间、空间、数量的限制,有助于拓宽档案服务的对象、范围和领域,进而对档案信息资源的共享服务打下扎实的基础。为使设计的系统更加适应使用者的行为习惯、提高使用者的查档体验和方便档案的管理,使用者可以通过在线查看整个档案的图谱,详细掌握需求档案的基本状况,从而实现档案的预览、加载和使用等全过程省时省力的效果。
本文分别从普通用户端和管理员端进行需求分析。从普通用户端分析,根据用户群体使用档案的利用目的、信息需求对象等不同,以及梳理不同用户使用系统的工作流程,并经过研究人员进行整理汇总、统计分析后生成了用户应用需求调研报告,此报告将作为系统功能需求设计的主要依据。 从管理员端分析,由于管理员掌握系统的所有权限,管理员登录系统后会展示全部功能模块,相比普通用户增加了检索日志管理和用户权限管理两个模块。
第5章 总结与展望
5.1 总结
大数据背景下,自然语言处理、知识图谱等高新技术在各个行业的成功应用使得档案信息化迎来巨大的机遇和挑战。相对于传统档案管理系统,为进一步实现档案信息资源的共享服务,推动智慧档案馆建设,促使档案信息化快速发展,本文设计与实现的面向用户体验的档案信息资源共享服务系统作为档案信息化的一部分,旨在为档案领域的智能化管理提供思路。本文的主要工作有以下几方面:
(1)研究与构建基于本体的档案知识库
本文以甘肃省档案局所提供的档案数据为主要研究对象,首先利用分词、词性标注等技术手段进行格式化处理,然后再运用自然语言处理、知识图谱等技术对档案信息资源进行组织和表示,开展档案领域本体构建、各类档案实体和实体关系进行识别、抽取和存储,最后完成了基于Neo4j图数据库的档案知识库构建。
(2)设计和实现档案信息资源共享服务系统
本系统采取B/S的设计模式,从系统的需求分析入手,对档案信息资源共享服务系统的整体架构、关键模块等进行了总体设计,最后通过系统截图进行系统整体实现与效果展示,从中可以看到系统的功能基本上达到了预期的效果。
参考文献(略)