广西科学院学报  2018, Vol. 34 Issue (1): 0-0   PDF    
刘连芳     
广西达译商务服务有限责任公司, 南宁市平方软件新技术有限责任公司

语言文字是表达思维的工具, 没有语言文字, 人类无法把文明成果流传下来; 语言文字是最重要的交流工具, 是共享个人智能并将其转化为社会智慧的载体和渠道。

用计算机对语言文字的音、形、义等信息进行处理和加工, 即自然语言信息处理。这是一门与计算机科学、语言学、数学、信息学、声学等多种学科相关联的综合性学科。中文信息处理是自然语言信息处理的一个分支。

中国有56个民族, 使用着数十种文字和近百种语言。因此, 中文信息处理所涉及的语言文字不仅包括简体汉字、繁体汉字, 也包括藏文、蒙文、维吾尔文、壮文、朝鲜文、彝文等大量民族语言文字; 所涉及的技术包括对字、词、句、篇章的输入、存储、传输、输出、识别、转换、压缩、检索、分析、理解和生成。中文信息处理划分为基础研究和应用研究, 基础研究大致包括词法与句法分析、语义分析等, 应用研究大致包括文本分类与聚类、信息抽取、情感分析、文字识别等。

从20世纪80年代开始, 我国的中文信息处理进入了快速发展阶段, 并极大地提高了中文信息处理效率。1985年10月中国中文信息学会成立了少数民族专业委员会, 着重开展我国少数民族语言文字信息处理及其相关的工作, 主要内容包括:有关民族语言信息(文字的、语音的)处理编码和各类标准的制定; 民族语言文字信息处理系统研究开发; 民族语言文字信息处理设备; 实用民族语言文字信息工程(多语种语料库, 民族语言文字的统计研究、民族文字文献检索系统、古籍整理系统含民族文字的排版系统、辞书辅助系统等); 其他汉字信息处理技术成果向民族语言文字的移植及有关问题。至此, 我国少数民族语言文字信息处理走上了标准化、系列化之路, 三十多年来取得了丰硕的成果。

为促进国内各民族语言文字信息处理技术的学术研究, 加强同行间的学术交流与合作, 中文信息学会和中国中文信息学会民族语言文字信息专业委员会于2017年9月在广西桂林主办了“第十六届少数民族语言文字信息处理学术研讨会”。会上, 吾守尔·斯拉木教授做了“丝路多语言智能处理探讨及展望”的主题报告, 探讨了“一带一路”倡议下少数民族语言文字信息处理面临的新机遇与挑战。大会特邀嘉宾分别做了“汉语成语-典故知识库暨‘以’位置相关的词类-义项分布”“MLP2017会议介绍”“网络舆情分析关键技术及系统”“面向低资源的神经机器翻译”等特邀报告。

为了让更多相关学者能够共享会议的报告内容, 在中国中文信息学会少数民族专业委员会和“第十六届少数民族语言文字信息处理学术研讨会”程序委员会的指导下, 《广西科学院学报》编委会选取了10篇会议论文, 并邀请在藏、蒙、维、柯、哈、壮、朝鲜文处理领域的专家撰写了3篇综述, 形成少数民族语言文字信息处理专刊, 集中展示近期我国科研工作者在少数民族语言信息处理领域的相关研究成果。希望专刊能够进一步推动我国少数民族语言信息处理的学术交流, 促进少数民族语言文字处理研究、开发与应用砥砺前行, 为各民族共同繁荣发展提供信息技术支撑。