机器翻译, 又称自动翻译, 是利用计算机将一种语言翻译成另一种语言的过程[1]。其概念产生于20世纪30年代, 经过几十年的研究、发展, 特别是随着计算机技术的高速发展, 机器翻译已逐步进入到了人们的日常生活中。那么, 如何更好、更快、更高效地进行机器翻译便成为此项技术的关键问题。但目前, 机器翻译的译文有时还比较生硬, 语句不够通顺, 甚至由于受存储单词和专业术语的限制, 会出现错译, 翻译后通常需要进行人工校译和编辑加工。
朝鲜语中存在大量特殊短语结构, 如果能在朝汉翻译中准确地翻译这些特殊短语, 将对提高朝汉机器翻译的准确率和效率起到十分关键的作用。首先, 句子的翻译往往会因为语序混乱而导致译文不通顺, 而通过提取特殊短语, 建立相应的短语库, 翻译时便可以方便快捷地得到语序正确的短语译文。其次, 特殊短语中, 构成短语的固有动词很大一部分是一词多义, 短语有固定搭配, 如果能够建立相应的短语库, 将能够更加快速、更加准确地进行匹配, 提高翻译效率。故本文将基于标注语料库, 对特殊短语结构进行语言特征分析, 并将实现特殊短语的自动提取。
1 特殊短语结构的语言特征分析短语是由两个或两个以上的词组成的, 如:“
本文将特殊短语按照短语结尾的类型分为以连接词尾结尾的特殊短语(例如:“
该结构如下所示:
上例中包含“
根据与动词搭配的名词性成分的语法标记(助词)分类如下, 其中还存在包含名词性转成词尾“
(1) 包含副词格助词的特殊短语结构
该特殊短语的结构:NNG+JKB+[XR/VV/(NNG+XSV)]+EC。
(2) 包含宾格助词的特殊短语结构
该特殊短语的结构:NNG+JKO+ [XR/VV/ (NNG+XSV)]+EC。
(3) 包含接续助词的特殊短语结构
该特殊短语的结构:NNG+JC+ [XR/VV/ (NNG+XSV)]+EC。
(4) 包含名词性转成词尾的特殊短语结构
该特殊短语的结构:NNG+JKO+ [VV/ (NNG+XSV)]+ETN+VV+EC。
该结构如下所示:
该短语结构与以连接词尾结尾的特殊短语类似, 具体的分类如下:
(1) 包含副词格助词的特殊短语结构
该特殊短语的结构:NNG+JKB+ [XR/VV/ (NNG+XSV)]+ETM。
(2) 包含宾格助词的特殊短语结构
该特殊短语的结构:NNG+JKO+ [XR/VV/ (NNG+XSV)]+ETM。
(3) 包含接续助词的特殊短语结构
该特殊短语的结构:NNG+JC+ [XR/VA/ (NNG+XSV)]+ETM。
(4) 包含名词性转成词尾的特殊短语结构
该特殊短语的结构:NNG+JKO+[VV/(NNG+XSV)]+ETN+VV+ETM。
特殊短语结构也存在特殊情况, 即结尾为一般副词的特殊短语, 如:“
(1) 包含副词格助词的特殊短语结构
该特殊短语的结构:NNG+JKB+MAG。
例如:
(2) 包含接续助词的特殊短语结构
该特殊短语的结构为:NNG+JC+MAG。
例如:
自动提取特殊短语, 即按照相关规则, 提取范围内的短语。而实现自动提取的核心则是确定其左右边界。首先确定左边界, 特殊短语的最左端为单个名词或名词短语, 故其左边界应为在助词前与动词搭配的名词性成分(如:“
然后确定右边界, 通过语料中的大量特殊短语实例可以发现特殊短语的最右端为连接词尾、冠形词转成词尾以及一般副词, 故右边界为连接词尾(例如:“
以包含副词格助词的特殊短语为例, 该特殊短语左边界为名词, 包括单个名词与名词短语, 将左边界按照单个名词与名词短语进行分类研究, 具体情况如下。
2.1 右边界为连接词尾的特殊短语的左边界问题(1) 左边界为单个名词的特殊短语
(2) 左边界为名词短语的特殊短语, 可分为以下8种情况[3]:
① 名词|代词+
② 两个或两个以上名词(代词)混合叠加
③ 名词|代词+接续助词|特殊的副词+名词|代词
④ 冠形词+名词|代词
⑤ 数字|数词+名词
21
⑥ 名词|名词叠加+
⑦ 名词+名词派生词尾+肯定指示词+冠形词性转成词尾+名词
⑧ 名词|代词+数词+(依存名词)
(1) 左边界为单个名词的特殊短语
(2) 左边界为名词短语的特殊短语, 可分为以下8种情况[3]:
① 名词|代词+
② 两个或两个以上名词(代词)混合叠加
③ 名词|代词+接续助词|特殊的副词+名词|代词
④ 冠形词+名词|代词
⑤ 数字|数词+名词
⑥ 名词|名词叠加+
⑦ 名词+名词派生词尾+肯定指示词+冠形词性转成词尾+名词
⑧ 名词|代词+数词+(依存名词)
(1) 左边界为单个名词的特殊短语
(2) 左边界为名词短语的特殊短语, 可分为以下8种情况[3]:
① 名词|代词+
② 两个或两个以上名词(代词)混合叠加
③ 名词|代词+接续助词|特殊的副词+名词|代词
④ 冠形词+名词|代词
⑤ 数字|数词+名词
⑥ 名词|名词叠加+
⑦ 名词+名词派生词尾+肯定指示词+冠形词性转成词尾+名词
⑧ 名词|代词+数词+(依存名词)
Perl语言的最初设计者为拉里·沃尔(LARRY WALL), Perl语言借取了C、sed、awk、shell scripting以及很多其他程序语言的特性。其中最重要的特性是它内部集成了正则表达式的功能[4]。而实现特殊短语的自动提取的关键, 就是Perl语言的正则表达式功能, 根据相应的语言特征和确定的左右边界, 自动提取规则内的短语, 这是建立短语库的重要一环。
另外, 短语库的建立还需要对自动提取的短语进行人工筛选, 选出有实际意义的短语加入短语库。
3.1 特殊短语结构自动提取将该特殊短语按照助词的种类进行分类, 根据其语言特征, 使用Perl语言实现特殊短语自动提取, 即以助词为提取特殊短语结构的核心。以包含副词格助词(JKB)的特殊短语为例, 对特殊短语的自动提取进行说明。
基于韩国“世宗计划”标注语料库中的20余万句语料, 共提取出56 216个短语结构, 其部分结果如表 1所示。
自动提取的结果存在非特殊短语的结构(如“
连接词尾后与补助动词(VX)相连的短语, 如下例所示:
经过二次分析, 根据规则再次抽取短语, 避免了上述不符合特殊短语结构情况的发生, 取得了较好的效果。采用自动提取与人工筛选相结合的方式, 按照不同的中心词进行分类, 共抽取了50余种特殊短语结构:
根据自动提取结果, 依据所总结的规则, 进行人工筛选, 最终选取符合规则的短语加入短语库。以包含副词格助词(JKB)的特殊短语结构为例, 对短语库的建立进行说明。
将经过自动提取与人工筛选的结果按照不同的中心词进行分类, 部分分类结果如表 2所示。
对信息提取系统的评价, 最为常用的两个指标是召回率和准确率[5], 因此这两个指标也是衡量特殊短语自动提取成功与否的重要标准。
根据所确定的特殊短语的左右边界, 编写相应代码, 使用计算机对特殊短语进行自动提取, 人工判断结果是否全部被召回, 是否全部正确, 并计算其召回率和准确率。
选取5 000句训练语料, 以包含“
经过人工筛选得出, 该语料中共有48个包含“
本文通过分析特殊短语的语言特征, 寻找特殊短语自动提取的左右边界, 进而建立规则, 编写代码, 实现自动提取, 建立特殊短语库, 并经过测试, 取得了满意的效果。
但本文的工作还有两点不足:(1)虽然本文依据的标注语料库达50万句之多, 但语料所涉及的范围仍旧有限, 所以有必要适当扩大语料的范围。(2)虽然召回率与准确率都较高, 但错误结果仍然存在, 所以需要进一步分析论证, 将错误率降低。
[1] |
赵铁军. 机器翻译原理[M]. 哈尔滨: 哈尔滨工业大学出版社, 2000. ZHAO T J. Theory of machine translation[M]. Harbin: Harbin Institute of Technology Press, 2000. |
[2] |
毕玉德. 现代朝鲜语动词语义组合关系研究[M]. 北京: 民族出版社, 2005: 28. BI Y D. Research on the semantic combinations of modern Korean verbs[M]. Beijing: Nationalities Publishing House, 2005: 28. |
[3] |
安帅飞, 毕玉德. 韩国语名词短语结构特征分析及自动提取[J]. 中文信息学报, 2013, 27(5): 205-210. AN S F, BI Y D. Structure characteristic analysis and automatic extraction of Korean noun phrase[J]. Journal of Chinese Information Processing, 2013, 27(5): 205-210. |
[4] |
施瓦茨, 菲尼克斯, 福瓦. Perl语言入门[M]. 盛春, 蒋永清, 王晖, 译. 南京: 东南大学出版社, 2012. SCHWARTZ R L, PHOENIX T, FOY B. Learning Perl[M]. SHENG C, JIANG Y Q, WANG H(eds. ). Nanjing: Southeast University Press, 2012. |
[5] |
俞士汶. 计算语言学概论[M]. 北京: 商务印书馆, 2003. YU S W. Introduction of computational linguistics[M]. Beijing: Commercial Press, 2003. |