广西科学院学报  2018, Vol. 34 Issue (1): 57-62   PDF    
朝鲜语特殊短语结构的语言特征分析及自动提取
毕玉德 , 扈毅 , 安帅飞     
战略支援部队信息工程大学洛阳校区, 河南洛阳 471003
摘要: 朝鲜语中存在大量特殊短语结构, 因此在朝汉翻译中, 如何准确翻译这些特殊短语显得尤为重要, 此举有利于提高机器翻译的精度与效率。本文基于韩国“世宗计划”标注语料库, 通过对特殊短语结构进行语言特征分析, 构建规则库, 以迭代方式提取特殊短语结构及其分布, 并以中心词为“”的特殊短语为例, 进行自动提取实验, 取得满意的效果。
关键词: 朝鲜语     标注语料库     特殊短语     自动提取    
Structure Characteristic Analysis and Automatic Extraction for Korean Special Phrase
BI Yude , HU Yi , AN Shuaifei     
Luoyang Campus, Information Engineering University of PLA Strategic Support Forces, Luoyang, Henan 471003, China
Abstract: There are a large number of special phrase structures in Korean, so it is especially important to accurately translate these special phrases in the process of Korean-Chinese translation, which is helpful to promote the accuracy and efficiency of machine translation.This article was based on the tagged corpus made by Korea's Sejong plan.Through analyzing the language features of special phrases, a rule base was constructed, and the special phrase structure and its distribution were extracted with iterative method.The headword of " " in special phrases was used as an example to conduct an automatic extraction experiment and achieved satisfactory results.
Key words: Korean     tagged corpus     special phrase     automatic extraction    
0 引言

机器翻译, 又称自动翻译, 是利用计算机将一种语言翻译成另一种语言的过程[1]。其概念产生于20世纪30年代, 经过几十年的研究、发展, 特别是随着计算机技术的高速发展, 机器翻译已逐步进入到了人们的日常生活中。那么, 如何更好、更快、更高效地进行机器翻译便成为此项技术的关键问题。但目前, 机器翻译的译文有时还比较生硬, 语句不够通顺, 甚至由于受存储单词和专业术语的限制, 会出现错译, 翻译后通常需要进行人工校译和编辑加工。

朝鲜语中存在大量特殊短语结构, 如果能在朝汉翻译中准确地翻译这些特殊短语, 将对提高朝汉机器翻译的准确率和效率起到十分关键的作用。首先, 句子的翻译往往会因为语序混乱而导致译文不通顺, 而通过提取特殊短语, 建立相应的短语库, 翻译时便可以方便快捷地得到语序正确的短语译文。其次, 特殊短语中, 构成短语的固有动词很大一部分是一词多义, 短语有固定搭配, 如果能够建立相应的短语库, 将能够更加快速、更加准确地进行匹配, 提高翻译效率。故本文将基于标注语料库, 对特殊短语结构进行语言特征分析, 并将实现特殊短语的自动提取。

1 特殊短语结构的语言特征分析

短语是由两个或两个以上的词组成的, 如:“/去学校、/吃饭”等, 但上述短语组合结构较为自由, 本文研究的特殊短语, 其结构较为固定, 基本结构为:助词+中心词+词尾, 如:“”, 也存在个别特殊情况, 如:“”。该类结构中谓词活用形式(谓词词干+词尾)有限, 与之搭配的名词性成分的语法标记(助词)相对固定, 在朝鲜语中出现频率较高。

本文将特殊短语按照短语结尾的类型分为以连接词尾结尾的特殊短语(例如:“/基于语料库”)和以冠形词转成词尾结尾的特殊短语(例如:“/以美国为首的”), 但也存在特殊情况, 即以一般副词结尾的特殊短语(例如:“”)。本文将分别对三者进行语言特征分析, 为确定左右边界提供语言学基础。

1.1 以连接词尾结尾的特殊短语结构

该结构如下所示:

上例中包含“(一般名词, 代码:NNG)、(一般名词, 代码:NNG)、(宾格助词, 代码:JKO)、(一般动词, 代码:VV)、(接续词尾, 代码:EC)”等成分。朝鲜语中, 谓语(动词和形容词)占一个句子的支配地位。在一个句子中谓语作为语言的语义中心要素, 反映着人的经验, 它决定着什么样的名词以什么样的关系与之搭配[2]。特殊短语作为一个小的句子单元, 其中心词为该短语中的动词(例如:“ ”中的“ ”是中心词)或形容词(例如:“”中的“”是中心词), 是短语翻译的核心, 与该中心动词搭配的名词也十分重要, 只有两者相互合理搭配, 短语才有实际意义, 才能够完成对短语的翻译。

根据与动词搭配的名词性成分的语法标记(助词)分类如下, 其中还存在包含名词性转成词尾“”的特殊情况。

(1) 包含副词格助词的特殊短语结构

该特殊短语的结构:NNG+JKB+[XR/VV/(NNG+XSV)]+EC。

(2) 包含宾格助词的特殊短语结构

该特殊短语的结构:NNG+JKO+ [XR/VV/ (NNG+XSV)]+EC。

(3) 包含接续助词的特殊短语结构

该特殊短语的结构:NNG+JC+ [XR/VV/ (NNG+XSV)]+EC。

(4) 包含名词性转成词尾的特殊短语结构

该特殊短语的结构:NNG+JKO+ [VV/ (NNG+XSV)]+ETN+VV+EC。

1.2 以冠形词转成词尾结尾的特殊短语结构

该结构如下所示:

该短语结构与以连接词尾结尾的特殊短语类似, 具体的分类如下:

(1) 包含副词格助词的特殊短语结构

该特殊短语的结构:NNG+JKB+ [XR/VV/ (NNG+XSV)]+ETM。

(2) 包含宾格助词的特殊短语结构

该特殊短语的结构:NNG+JKO+ [XR/VV/ (NNG+XSV)]+ETM。

(3) 包含接续助词的特殊短语结构

该特殊短语的结构:NNG+JC+ [XR/VA/ (NNG+XSV)]+ETM。

(4) 包含名词性转成词尾的特殊短语结构

该特殊短语的结构:NNG+JKO+[VV/(NNG+XSV)]+ETN+VV+ETM。

1.3 以一般副词结尾的特殊短语结构

特殊短语结构也存在特殊情况, 即结尾为一般副词的特殊短语, 如:“/如下”。这种特殊短语结构中, 与中心词相连的助词分类方法不同, 仅当短语包含副词格助词与接续助词时有实际意义, 故对该特殊短语结构进行如下分类:

(1) 包含副词格助词的特殊短语结构

该特殊短语的结构:NNG+JKB+MAG。

例如:

/如下

(2) 包含接续助词的特殊短语结构

该特殊短语的结构为:NNG+JC+MAG。

例如:

/与大众文化不同

2 特殊短语的左右边界问题

自动提取特殊短语, 即按照相关规则, 提取范围内的短语。而实现自动提取的核心则是确定其左右边界。首先确定左边界, 特殊短语的最左端为单个名词或名词短语, 故其左边界应为在助词前与动词搭配的名词性成分(如:“”中副词格助词“”前与“”搭配的名词“”, “ ”中宾格助词“”前与“”搭配的名词“”)。安帅飞等[3]利用世宗语料库中的二十多万句子, 提取归纳了单个名词之外的8大类名词短语, 名词短语的左边界等同于特殊短语的左边界。本文据此, 构建了特殊短语的左边界规则集。

然后确定右边界, 通过语料中的大量特殊短语实例可以发现特殊短语的最右端为连接词尾、冠形词转成词尾以及一般副词, 故右边界为连接词尾(例如:“”中动词“”后的连接词尾“”)、冠形词转成词尾(例如:“”后的冠形词转成词尾“”中动词“ ”)以及一般副词(例如:“”中的一般副词“”)。故将其右边界分为上述3类。

以包含副词格助词的特殊短语为例, 该特殊短语左边界为名词, 包括单个名词与名词短语, 将左边界按照单个名词与名词短语进行分类研究, 具体情况如下。

2.1 右边界为连接词尾的特殊短语的左边界问题

(1) 左边界为单个名词的特殊短语

/据此

(2) 左边界为名词短语的特殊短语, 可分为以下8种情况[3]:

① 名词|代词++名词|名词叠加

② 两个或两个以上名词(代词)混合叠加

/对于教育问题

③ 名词|代词+接续助词|特殊的副词+名词|代词

/按照传统与习惯

④ 冠形词+名词|代词

/有关此类疑问

⑤ 数字|数词+名词

21 /有关21世纪

⑥ 名词|名词叠加+ +名词

⑦ 名词+名词派生词尾+肯定指示词+冠形词性转成词尾+名词

⑧ 名词|代词+数词+(依存名词)

/对于我一个人而言

2.2 右边界为冠形词转成词尾的特殊短语的左边界问题

(1) 左边界为单个名词的特殊短语

/对于文化的

(2) 左边界为名词短语的特殊短语, 可分为以下8种情况[3]:

① 名词|代词++名词|名词叠加

② 两个或两个以上名词(代词)混合叠加

/对于军事领域的

③ 名词|代词+接续助词|特殊的副词+名词|代词

④ 冠形词+名词|代词

/根据该理论的

⑤ 数字|数词+名词

⑥ 名词|名词叠加+ +名词

⑦ 名词+名词派生词尾+肯定指示词+冠形词性转成词尾+名词

⑧ 名词|代词+数词+(依存名词)

/有关一间房子的

2.3 右边界为一般副词的特殊短语的左边界问题

(1) 左边界为单个名词的特殊短语

/如下

(2) 左边界为名词短语的特殊短语, 可分为以下8种情况[3]:

① 名词|代词+ +名词|名词叠加

/与祭祀程序相类似

② 两个或两个以上名词(代词)混合叠加

③ 名词|代词+接续助词|特殊的副词+名词|代词

/与传统习惯相类似

④ 冠形词+名词|代词

/不过是一个电视节目

⑤ 数字|数词+名词

/不过一年

⑥ 名词|名词叠加+ +名词

/不过是形式上的需要

⑦ 名词+名词派生词尾+肯定指示词+冠形词性转成词尾+名词

⑧ 名词|代词+数词+(依存名词)

/不过一间房子

3 特殊短语结构提取及短语库的建立

Perl语言的最初设计者为拉里·沃尔(LARRY WALL), Perl语言借取了C、sed、awk、shell scripting以及很多其他程序语言的特性。其中最重要的特性是它内部集成了正则表达式的功能[4]。而实现特殊短语的自动提取的关键, 就是Perl语言的正则表达式功能, 根据相应的语言特征和确定的左右边界, 自动提取规则内的短语, 这是建立短语库的重要一环。

另外, 短语库的建立还需要对自动提取的短语进行人工筛选, 选出有实际意义的短语加入短语库。

3.1 特殊短语结构自动提取

将该特殊短语按照助词的种类进行分类, 根据其语言特征, 使用Perl语言实现特殊短语自动提取, 即以助词为提取特殊短语结构的核心。以包含副词格助词(JKB)的特殊短语为例, 对特殊短语的自动提取进行说明。

基于韩国“世宗计划”标注语料库中的20余万句语料, 共提取出56 216个短语结构, 其部分结果如表 1所示。

表 1 部分特殊短语的提取结果 Table 1 Some extractions of special phrases

自动提取的结果存在非特殊短语的结构(如“”等)(表 1), 故需要进行二次分析。观察结果分析得出, 符合以下规则的短语不属于特殊短语。

连接词尾后与补助动词(VX)相连的短语, 如下例所示:

经过二次分析, 根据规则再次抽取短语, 避免了上述不符合特殊短语结构情况的发生, 取得了较好的效果。采用自动提取与人工筛选相结合的方式, 按照不同的中心词进行分类, 共抽取了50余种特殊短语结构:

3.2 特殊短语库的建立

根据自动提取结果, 依据所总结的规则, 进行人工筛选, 最终选取符合规则的短语加入短语库。以包含副词格助词(JKB)的特殊短语结构为例, 对短语库的建立进行说明。

将经过自动提取与人工筛选的结果按照不同的中心词进行分类, 部分分类结果如表 2所示。

表 2 特殊短语库 Table 2 Corpus of special phrase
3.3 实例测试

对信息提取系统的评价, 最为常用的两个指标是召回率和准确率[5], 因此这两个指标也是衡量特殊短语自动提取成功与否的重要标准。

根据所确定的特殊短语的左右边界, 编写相应代码, 使用计算机对特殊短语进行自动提取, 人工判断结果是否全部被召回, 是否全部正确, 并计算其召回率和准确率。

选取5 000句训练语料, 以包含“”且右边界为连接词尾的特殊短语为例进行测试, 部分结果如表 3所示。

表 3 基于5 000句语料的部分提取结果 Table 3 Some extractions from 5 000 Korean sentences

经过人工筛选得出, 该语料中共有48个包含“”且右边界为连接词尾的特殊短语, 自动提取出48个结果, 召回率为100%, 提取结果中, 出现3个错误结果, 准确率为93.8%。其中的错误结果均是由于名词前做修饰成分的定语过长造成的, 但此种情况在朝鲜语中并不多见, 且长定语结构较为复杂, 难以研究其规则, 故可以暂不考虑此种情况的发生。所以总体上, 测试取得了满意的效果。

4 结束语

本文通过分析特殊短语的语言特征, 寻找特殊短语自动提取的左右边界, 进而建立规则, 编写代码, 实现自动提取, 建立特殊短语库, 并经过测试, 取得了满意的效果。

但本文的工作还有两点不足:(1)虽然本文依据的标注语料库达50万句之多, 但语料所涉及的范围仍旧有限, 所以有必要适当扩大语料的范围。(2)虽然召回率与准确率都较高, 但错误结果仍然存在, 所以需要进一步分析论证, 将错误率降低。

参考文献
[1]
赵铁军. 机器翻译原理[M]. 哈尔滨: 哈尔滨工业大学出版社, 2000.
ZHAO T J. Theory of machine translation[M]. Harbin: Harbin Institute of Technology Press, 2000.
[2]
毕玉德. 现代朝鲜语动词语义组合关系研究[M]. 北京: 民族出版社, 2005: 28.
BI Y D. Research on the semantic combinations of modern Korean verbs[M]. Beijing: Nationalities Publishing House, 2005: 28.
[3]
安帅飞, 毕玉德. 韩国语名词短语结构特征分析及自动提取[J]. 中文信息学报, 2013, 27(5): 205-210.
AN S F, BI Y D. Structure characteristic analysis and automatic extraction of Korean noun phrase[J]. Journal of Chinese Information Processing, 2013, 27(5): 205-210.
[4]
施瓦茨, 菲尼克斯, 福瓦. Perl语言入门[M]. 盛春, 蒋永清, 王晖, 译. 南京: 东南大学出版社, 2012.
SCHWARTZ R L, PHOENIX T, FOY B. Learning Perl[M]. SHENG C, JIANG Y Q, WANG H(eds. ). Nanjing: Southeast University Press, 2012.
[5]
俞士汶. 计算语言学概论[M]. 北京: 商务印书馆, 2003.
YU S W. Introduction of computational linguistics[M]. Beijing: Commercial Press, 2003.