1、引言
大规模文本的自动化处理,包括文本摘录、信息搜索、机器翻译,以及在人工智能领域的人机交互等,都需要对自然语言进行形式化处理,并且是在语义层面进行此类工作。所以解决语义计算问题显得尤为突出。从乔姆斯基提出"转化生成”语法以来,句法的形式化处理,己经在计算机上成功实现。但是语义的形式化处理却走过了漫长的道路,至今仍是困难重重。究其原因就是意义的复杂性特点所致。
所谓语义计算,可以将其解读为语义分析,或语义理解,但是按照语义计算的目的看,后者更为贴切。语义计算希望通过某种方法使得计算机能够真正地或最大程度上理解自然语言,从而计算机可以从事那些单纯依靠基于规则的句法分析或基于统计的语言模型而无法处理的工作,如人机交互,多语种翻译,信息检索。要实现语义计算,首先需要考察下述问题:
第一、因为自然语言存在大量歧义,所以我们需要一种精确的语义表征语言可以毫无歧义地表征自然语言的语义。
第二,由于自然语言表达式是无穷的,所表达的意义也是无穷的,计算机必须解决如何理解全新而陌生的句子,如何计算任一自然语言表达式的语义,这对于我们也是如此。所以自然语言必定具有某种特点能让我们学会一门语言,同样使得语义形式化处理得以可能。意义组合原理就成为首要考察对象。
第三,我们需要一种意义理论能够给出自然语言每一表达式的意义,而不是毫无价值地给出表达式的意义,其中意义能够能体现一种演性用法(demonstrated use)。在此,真值条件语义学符合这个要求。
...............................
2、计算和意义
2.1什么是计算
对语义进行计算,首先要考察语义是否具有可计算特点,所以我们必须了解什么是计算,以及计算机的工作原理。何谓计算(computing),毫无疑问一 始我们大多数人就会将其理解为数值之间的某种运算,最简单的是加减乘除,稍微复杂一点或许会认为是高等函数中的求微分或积分的运算。但当问及计算的本质时,答案似乎并不那么明显了,而将意义和计算两者结合在一起后,问题就更为复杂。所以必须清晰地把握计算 本质。
对于计算的研究主要考察什么样的对象是可计算的,什么样的对象是不可计算的,以及计算的复杂度问题。可计算性定义很多,有一种较为流行的版本是:“算法可计算或能行可计算其值的任何函数,以及通过执行算法或有效过程能找到其解决方案的任何问题,都能通过执行算法或有效过程能够找到这些问题的解决方案”。
B. C.史密斯(Brian Cantwell Smith)认为有7个计算的版本,分别是形式符号操作(Formal Symbol Manipulation )、能行可计算(EffectiveComputability )、算法的执行(Execution of Algorithm )或规则的遵守(Rule-Following)、函数的运算(Calculation of A Function)、数字状态机器(Digital State Machine)、信息处理(Information Process)和物理符号系统(Physical Symbol Systems)。'史密斯的分类刻画出了计算概念本身的复杂性,但也有学者认为这些版本具有一个共同的本质,可以用“计算就是信息处理"来统一上述不同的计算版本。使如此,我们考虑到是借助于计算机来处理语义,所以我们将计算限定在形式符号操作、能行可计算、算法的执行以及函数的运算这四个版本,更一般地讲,图灵机模型可以严格刻画这四个计算版本。
................................
2.2自然语言的处理步驟
由于对语义的计算处理属于广义上的计算语言学,语义的计算机动处理过程也符合计算语言学对语言的研究过程。
即;
1:研究者以特定的方式对自然语言的规律进行抽象,以计算机能够处现的形式来表述关于自然语言的规律一一得到所谓的语言知识;
2:针对特定的语言知识表示形式,研制合适的分析和处理算法;
3:根据算法编制计算机可执行的自然语言处理程序。这样的稅序加知识,加上计算机硬件系统,共同构成一个自然诺H处理系统(NIAS);
4:用这样一个自然语言处理系统对自然语言进行分析处理,根据反馈的结果调整原来的设计,改进NLPS。
SI-S2要求将所需要研宄的问题进行形式化处理,并对语义知识形式化表.征,以满足计算机对输入和输出符号的要求。S3则说明处理语言时,计算机需要一种算法,以便在有限步骤内将输入符号变换成我们所需要的输出符号。将该语言处理步骤具体化为语义计算步骤,那么对自然语言表达式的意义进行自动化处理相应地需要用三个过程:
1、设计形式化表征(formally represent)自然语言表达式语义的意义表征语言;
2、根据某一意义理论,借助于意义表征语言,设计出一种语义计算算法;3、根据这个算法编写计算机程序,然后在计算机上加以实现。
在这三个步骤中,包括S1-S4的处理步骤,语言知识对整个处理过程起到了最关键的影响,特别语义的形式化表征和自然语言的意义理论是整个语义计算处理的关键。所以对自然语言语义的不同观点,以及用不同的形式化方式来表征自然语言语义,也就形成了对自然语言处理的广泛争论。对语义的不同理解,形成了 “交流意向论”和“真值条件论”两大派系。
...........................
3、意义组合原则.................................16
3.1什么是意义的组合原则...................16
3.2意义组合原则的证明......................19
3.3意义组合原则的反驳.......................21
3.4意义和意义组合原则.......................23
4、从中文屋到意向性.........................24
4. 1真和意义再思考...........................24
4.2作为意义来源的意向性.................26
4.3计算机意向性的构造...................28
...........................
6、对基于统计的语义计算的考察
基于统计的语义计算是一条与上文截然不同的研究进路。在基于统计的自然语言处理中引入语义计算是同样非常必要,“如果我们能够自动获取词义,那么统计自然语言处理中的许多任务(包括文本理解和信息检索处理)的结果将会有很大的改进。在语义计算中,语义的相似性计算具有较强实用价值,且较易处理,对机器翻译、词义消歧、文本归类、信息检索等性能有明显的提升效果。
鉴于此,语词的语义相似性计算一直是自然语言处理中的基础研宄课题。
但是,在进行语义相似度计算时,语义相似性的定量化表示究竟说明了什么。语词“tobacco “和“horse” 相似度是8.26%这一相似度是如何测定的,如此高的相似性和我们的判断为什么不同。我们对此抱有困惑,而且语义的直觉观念和语义的定量化表示之间矛盾又让我们对计算机能否处理语义表示怀疑。这一-困惑的重要原因就在于其算法的理论基础、语义概念、相似性概念并没有获得清晰明确的定义或说明。
6.1意义表征
由于所处理的对象是自然语言,基于统计的语义计算依然面临如何表征自然语言语义的问题。这一章我们关注的语词的语义计算。不同的计算方法,他们各自所承诺的语义表征都是不同的。下面我们将分别论述。
第一种方法是基于世界知识或分类体系(taxonomy)的语义计算,语词的意义用概念来表征,这些概念是分类体系中的词项,如WordNet中的处于上下义关系中的概念。
.........................
结论
无论是用意向性来解释我们对语言的理解,还是用真值条件来解释对语言的理解,都涉及到对一个巨大背景的把握,也就是世界,这个世界既可以是信念系统,也可以是我们的文化背景,生活形式等等。真值条件语义学要求解释者用宽容原则将其所具有的大多数信念赋予被解释者,用整体论的视角来解释我们对意义的理解;塞尔将意向性的来源看成是非意向性的,非表征性的心理能力所组成的“背景”。这无疑告诉我们,如果计算机能够像人一样真正理解语言,或者更自然地去理解语言,具有日常知识,信念系统,或“背景”是必不可少的条件。
但这其中不仅和计算机所要求的用离散的、孤立的数据处理对象的本质要求不相符合,而且在最宽泛的约束下,单纯的实现最简单的“深层背景”的能力,诸如抓取东西,考虑事物的固体性质,识别对象等等对计算机而言都非常困难。对于能否将这种背景用一个命题集合来表示,从而让计算机可以掌握背景呢?塞尔的回答是:“不”。他认为“如果我们试图把背景的相关部分都解释为一个表达更多语句内容的语句组成的集合,那么,要理解他们则需要更多的背景"(约翰.R.塞尔,2007)。也就是说,我们对语句的理解需要一个背景,如果将背景还原为一个语句的集合,那么对这些语句的集合还需要另一个背景,这样就会陷入无穷后退,那么唯一的答案就是背景是不能还原为这些意向状态的语句。这种语义内容只在一种由文化的和生物的技能构成的背景之下才起作用,正是这种背景性技能才能使我们能够理解字面意义。”.....
参考文献(略)