量词的日汉翻译规则对在线机器翻译质量影响的实验报告

发布时间:2022-05-03 17:16:27 论文编辑:vicky

本文是一篇日本留学生论文,本次实验达到了实验最初设定的目的,以《数え方の辞典》(饭田,2004)中量词所搭配计量对象数量超过 100 的 13 个量词为对象,制定出 13 个日语量词的日汉翻译规则,在“量词以外的部分全部翻译正确”的假设下,通过权威的汉语语料库和自动评价值指标进行检验,以实例和数据说明本规则具有一定程度的有效性,在一定程度上能够提高在线机器翻译的质量。


第 1 章  引言


1.1 选题背景

根据全国翻译专业学位研究生教育指导委员会 2018 年 9 月修订的《翻译硕士专业学位基本要求》注 1,学位论文可以采取翻译实习报告、翻译实践报告、翻译实验报告、翻译调研报告、翻译研究论文五种形式。笔者在中国知网的博硕栏下分别搜索五种论文模式的关键词发现,翻译实践报告多达 12943 篇,翻译研究论文 586 篇,翻译实习报告90 篇,翻译调研报告 44 篇,翻译实验报告仅 15 篇。从这组数据可以看出,翻译硕士专业的毕业生普遍选择翻译实践报告的论文模式,可以说该论文模式已经非常成熟,很难实现更大突破。此外,翻译实践报告的基础是翻译实践,其研究问题的深刻性和全面性受限于文本内容、篇幅、译者水平等诸多要素。而实验报告则不同,它建立在数据之上,更具客观性。相对于传统的翻译实践报告而言,翻译实验报告的论文形式,是对翻译硕士专业学位论文模式的一种探索。

机器翻译(machine translation)是使用计算机把一种语言(源语言,source language)翻译成另外一种语言(目标语言,target language)的一门学科(冯志伟,2004:1)。从实现方法上可以分为两大类,即基于规则的机器翻译方法和基于语料库的机器翻译方法。基于语料库的机器翻译是在基于规则的技术中引入了语料库的方法,它可分为两种:基于统计的机器翻译方法和基于实例的机器翻译方法(冯志伟,2004:44)。基于规则的机器翻译,优点是可以很准确地描述出一种语言的语法构成,缺点是很难覆盖所有的语言现象(戴新宇等,2004:177)。基于统计的机器翻译从基于短语到基于句法、再到目前的基于神经网络的方法,已经发展到一个新的阶段,但方法较为机械,对于解决语言本身的问题,缺少深入探索。基于统计和基于实例的翻译方法需要大规模的双语平行语料库,但现阶段日汉双语对齐语料库并不充足。因此,不断完善规则,再将规则应用到基于语料库的机器翻译中,也是一项值得研究的课题。


1.2 研究现状

研究现状分为在线机器翻译的研究现状和日语量词汉译的研究现状两部分内容。

1.2.1 在线机器翻译的研究现状

目前,在线机器翻译的研究主要围绕英汉(汉英)展开,日汉(汉日)在线机器翻译方面的研究比较薄弱。相关先行研究主要分为两大类

一类是探讨在线机器翻译在不同类型文本中的应用及译文评析、译后编辑等研究。如《对日汉机器翻译现状及适用方向的初探》(戚胜蓝,2015)一文以四个常用在线翻译软件为研究对象,比较其在科技、文学、新闻、文化历史和日常生活五个领域的翻译结果,总结日汉在线翻译网站存在的普遍性问题;《中国国内的日汉在线翻译中的误译研究》(秦上,2019)以百度翻译和有道翻译的译文为分析对象,将分析对象分为文学类和非文学类,以语法和句型为切入点,分析误译的所在、种类、特征;《在线机器翻译中日翻译错误原因及对策》(张琳婧,2019)一文以新闻会话文及陈述句为例,从语法、词汇、上下文、直译等视角出发,分析在线机器翻译的误译及原因,并提出改善建议;《在线机器翻译的译后编辑原则研究》(朱慧芬等,2020),综述机器翻译错误类型,结合浙江“八八战略”文本的谷歌英译,探讨译后编辑原则;《在线机器翻译软件的医学文本翻译评析》(唐斌、陈烁,2020)一文,对七款常用在线机器翻译软件的医学文本译文进行定量和定性评析,分析常见的术语错误、错译和漏译问题;《在线翻译平台汉英翻译的问题及译后编辑》(陈胜、田传茂,2021)一文,以汉语石油地质文献为源语文本,对七款常用在线上翻译平台的英译文进行分析评价,归纳出多方面的问题,并针对这些问题提出采用“信达切”的原则进行译后编辑。


第 2 章  实验部分


2.1 实验描述

通过对日语量词的数量、用法、意思以及所搭配计量对象数量的梳理,从日语量词的范畴角度设置量词的日汉翻译规则,从语料库中抽取实例对翻译规则进行评价。此外,采用自动评价指标 BLEU 对“在线机译译文错误,规则译文正确”的例文进行自动评价,以人工译文为参考译文,利用 Python 分别计算在线机译译文和规则译文的 BLEU 值,观察值是否发生变化,以此检验翻译规则是否有效。

2.1.1 实验内容

依据日语量词专门词典《数え方の辞典》(饭田,2004)的第二章量词的具体用法和《汉语量词大词典》(刘子平,2012)以及《日语数量词大全》(吴丽等,2016),以先行研究为基础,设置量词的日汉翻译规则;从日语单语语料库中抽取含量词的句子,将其输入到在线机器翻译中,得到在线机译译文(以下简称“译文 A1”);结合该翻译规则,对在线机译译文中的量词部分进行修改,得到该翻译规则译文(以下简称“译文 A2”);对比分析两种译文,以汉语单语语料库为判断标准,统计两种译文的正确、错误数量,计算翻译正确率;对“译文 A1 错误且译文 A2 正确”的例句进行人工翻译,得到人工译文(以下简称“译文 B”),以译文 B 为参考译文,利用自动评价指标分别计算译文 A1、译文 A2 与译文 B 的相似度,观察相似度的数值是否有所提升。

2.1.2  实验目的

本实验的目的是制定日语量词的日汉翻译规则,证明该规则在一定程度上能够提高在线机器翻译的质量。

日本留学生论文参考


2.2 前期准备

前期准备部分主要阐述选择实验对象、实验文本、实验工具、评价标准的过程和理由。

2.2.1 实验对象

为尽可能制定切实可行的日语量词的日汉翻译规则,笔者将《数え方の辞典》(饭田,2004)的第一章约 4600 个计量对象、计量对象所对应的量词以及第二章量词(不含度量单位)进行电子化,统计出量词的数量、量词所搭配计量对象的个数。统计结果为:量词 489 个,量词所搭配计量对象超过 100 个的有 13 个,50—99 个的有 18 个, 49 个以下的有 458 个。本实验只考察搭配计量对象超过 100 个的 13 个量词,分别为:本(1422 个)、枚(939 个)、個(835 个)、つ(625 个)、台(428 个)、点(235 个)、基(174 个)、匹(147 个)、株(137 个)、粒(116 个)、軒(113 个)、回(107 个)、袋(103 个)。

2.2.2 实验文本

实验的文本均出自中纳言语料库《現代日本語書き言葉均衡コーパス》(BCCWJ)。《現代日本語書き言葉均衡コーパス》(BCCWJ)是一个由日本国立国语研究所开发构建的语料库,目的是为了把握现代日语书面语整体情况,涵盖书籍、杂志、报纸、白皮书、博客、网络论坛、教科书、法律等领域,共存储了 1 亿 430 万字的数据,可针对各领域随机抽取样本。

文本搜索方式:选择“文字列検索”,搜索范围为“レジスター”全选、“年代”全选。在抽取具体例句时分步进行。

步骤 1:输入关键词“一+助数詞”,若例句数量超过 100,则下载前 100 句。

步骤 2:若关键词“一+助数詞”的例句不足 100,则分别输入关键词“二+助数詞”、“三+助数詞”、……“十+助数詞”,直到例句数量达到 100 为止。

对抽出的例句进行整理,删除不符合条件的例句,如以量词形式出现但不具备量词用法的例句、前后文都无法找出量词计量对象的例句、乱码的例句。此外,记录量词的例句数量以其出现的次数为准,即出现几次则计为几句,例如“真書用のもの一本、行書用のもの一本、草書用のもの一本、写書(写経)用のもの一本、計四本である”,量词出现了 5 次,则计为 5 句。


第 3 章  实验结果与分析 ........................... 18

3.1  整体情况分析 ..................................... 18

3.2  在线机器翻译的量词误译分析 ............................... 19

3.3  本翻译规则的量词误译分析 ..................................... 22

3.4  完善量词的日汉翻译规则 .............................................. 23 

第 4 章  总结 ................................... 24

4.1  实验结论 ........................................ 24

4.2  实验总结 ...................................... 24


第 3 章  实验结果与分析


3.1 整体情况分析

经检验,例句的译文整体分为五类:

第一类:译文 A1 错误,译文 A2 正确,即依据 BCC 汉语语料库,在线机器翻译译文错误,本规则译文正确。(详见例 1)

第二类:译文 A1 和译文 A2 都正确,即依据 BCC 汉语语料库,在线机器翻译译文和本规则译文都正确。(详见例 2)

第三类:译文 A1 和译文 A2 都正确,但译语与本翻译规则不对应,即依据 BCC 汉语语料库,在线机器翻译译文和本规则译文都正确,但本规则的译语无法与之对应。(详见例 3)

第四类:译文 A1 正确,译文 A2 错误。即在线机器翻译译文正确,本规则译文错误。(详见例 4)

第五类:译文 A1 和译文 A2 均错误。即在线机器翻译和本规则都出现错误译语。(详见例 5)

具体结果详见表 4:

日本留学生论文怎么写


第 4 章 总结


4.1 实验结论

本次实验达到了实验最初设定的目的,以《数え方の辞典》(饭田,2004)中量词所搭配计量对象数量超过 100 的 13 个量词为对象,制定出 13 个日语量词的日汉翻译规则,在“量词以外的部分全部翻译正确”的假设下,通过权威的汉语语料库和自动评价值指标进行检验,以实例和数据说明本规则具有一定程度的有效性,在一定程度上能够提高在线机器翻译的质量。

汉语量词和日语量词既有共同点,又有不同点。尤其是本次实验的对象,13 个中有12 个与汉语量词的字形相同,且用法、意义有部分重合,因此在日译汉时,在线机器翻译很容易出现一对一的翻译错误。本规则的作用是通过日语量词所搭配计量对象的范畴找到对应的译语,减少在线机器翻译中的量词错译,同时也能为人工翻译减轻量词上的翻译负担。

此外,翻译规则必不可少会出现生硬、死板的翻译,在设置、检验翻译规则时需灵活变通,是否需将量词直接翻译出来,取决于具体的计量对象和语境。

参考文献(略)

提交代写需求

如果您有论文代写需求,可以通过下面的方式联系我们。