摘要:彝语言文字是彝文信息和知识的载体,彝语言文字的信息化或者说彝语言文字信息处理技术的发展水平是关乎彝族地区现代化、社会信息化的大事。本文通过对规范彝文字信息处理技术三十年发展历程的回顾与总结,对规范彝文字信息处理一些相关问题作了些分析与思考,并结合笔者从事彝文信息处理技术的研究与开发实践经验,对于规范彝文信息处理技术的发展前景提出了笔者自己的一些想法与观点,希望能够对彝语文现代化和彝语言文字信息处理这个交叉领域的探索能起到抛砖引玉的作用,从而加快了彝语文工作的现代化和信息化建设的步伐,推进了彝族社会进入现代化信息时代的进程。
关键词:规范彝文;三十年;信息处理;现状分析 ;发展前景
一、引言
彝语言文字是彝文信息和知识的载体,彝语言文字的信息化或者说彝语言文字信息处理技术的发展水平是关乎彝族地区现代化、社会信息化的大事。
彝族是我国民族大家庭中人口较多的一员,据2000年统计,共有764万多人。分布在云南、四川、贵州、广西四省区。彝语属汉藏语系藏缅语族彝语支,分为六大方言区,由于内部差异较大,使彝文在读音、写法、表义上产生了分歧,同样一个字形,不同的地方有不同的音、不同的写法及不同的意义。要发展彝文,使之在新时期发挥作用,就得对彝文进行必要的整理、规范,于是1980年在征求各方意见的基础上,国务院以[1980]70号文件批准推行《彝文规范方案》:规定了以彝语北部方言的圣乍语为基础方言,以喜德语音为标准音,规定一字一音,819个字加次高音符号的字以及一个替音符号,共1165个字符(核心部分);书写一律从左到右横排;还确定使用国际通用的阿拉伯数字和彝文原有的数字等内容。
从30年的实践证明来看,彝文规范方案推行后,培养了一大批彝语文专业人才,彝语文也得到了广泛使用,有力促进了彝族地区经济、文化等社会各项事业的发展,这也是我国对少数民族文字进行必要规范改革的一个成功的典型例子,同时也为规范彝文的信息化处理技术的发展奠定了的基础。
二、规范彝文信息处理技术三十年的发展历程
从上世纪70年代起,在周恩来总理的关怀下,由当时的四机部、中国科学院、国家出版局等部门发起乐“汉字信息处理技术工程”,语言文字信息管理工作开始提上国家语言文字工作日程。我国是一个多民族多语种的国家,有53个少数民族都有自己的语言,将近30个少数民族使用30余种民族文字。因此,在研究汉字信息处理时,我国一直都很重视各少数民族语言文字的计算机信息处理工程,国家对少数民族语言文字处理系统的开发也给予了极大的关注。
彝文信息处理工程也正是这股语言信息处理浪潮中启动和发展壮大起来的。
彝文信息处理是指用计算机对彝文进行转换、传输、存储、分析等加工的科学,是一门与语言学、计算机科学、心理学、数学、控制论、信息论、声学、自动化技术等多种学科相关联的边缘交叉性科学。
彝文信息处理的研究工作其实早在1982 年就拉开了序幕,近30 年过去了,彝文信息处理工作走过了曲折的道路,经历了漫长的发展历程:
1982年,开发了《PGYW彝文计算机》;1984年,开发了《微型计算机彝文处理系统YWCL》,并于1984年10月27日通过了省级专家技术鉴定,1985年获 四川省科技进步奖;1986 年,《计算机激光彝文/ 汉文编辑排版系统》,通过了电子工业部和国家民族事务委员会共同主持的部级专家技术鉴定。该系统是我国首次运用激光照排技术进行少数民族文字处理的编辑排版系统。1986年5月在北京“全国'六五'期间科学技术攻关项目展览会”上荣获国务院电子振兴办公室颁发的优秀科技成果奖;1985 年,中国计算机技术服务公司、华北终端设备公司和北京民族印刷厂合作,开发了《CMPT -Ⅱ大键盘彝文系统》,曾用于六届四次全国人大文件印刷;1986 年,中国计算机服务公司和北京民族印刷厂合作,在华光Ⅱ型上开发成功《华光Ⅱ型彝文、汉字、西文计算机激光照排系统》;1989 年,云南、四川、贵州、广西、北京等省、市、自治区的有关专家、学者在西昌会议上一致通过了1980 年国务院批准实施的规范彝文作为我国彝文信息处理标准。1992 年,国家技术监督局颁布实施了沙马拉毅教授为主要起草人制定的国家标准《信息交换用彝文编码字符集》、《信息交换用15×16彝文点阵字模集》等多项规范彝文信息处理国家标准,从而使彝文信息处理工作得到了顺利发展。1992 年,《北大方正彝文激光照排系统》研制成功,是我国首次运用激光照排技术进行少数民族文字处理的编辑排版系统;也是当前报社、出版社、印刷厂等主要使用的彝文信息处理系统。1997年国务院批准的《信息交换用彝文24×24点阵字模集及数据集》以2000版的国际标准《多八位彝文编码字符集》等的颁布,为古老的彝文字汇入现代信息浪潮奠定了坚实的基础,研制出的计算机彝文输入法被应用于计算机彝文激光照排系统,填补了我国少数民族信息处理的一项空白,该项成果在北京科学会堂的鉴定会上,被两院院士王选命名为“沙马拉毅输入法”。1998 年,在滇、川、黔、桂四省(区) 彝族古籍整理协作会第六次会议上通过了“将国务院批准的四川规范彝文作为我国彝族统一文字的会议纪要”。至此,计算机彝文信息处理事业得到了迅猛发展。2000年后彝文信息处理技术的各项成果如春笋般涌现,从开始只能对单字的处理到现在的词汇处理,从文书编辑到电子彝文出版系统,已经形成了一套完整的彝文信息处理技术体系:2001年 出版了专著“计算机彝文信息处理”;2003年 “计算机彝文输入码及其键盘”获国家专利;2005年研制出的“中小学汉彝对照电子词典”和“彝文文献全文数据库研究与开发”均填补了国内相关方面的空白;2006年西南民族大学与北大方正合作开发的UNICODE彝文系统问世,计算机彝文字体从开始的2种发展到现在的白体、黑体、细黑体、宋体、仿宋体、综艺体、圆头体、手写体等8种字体;2007年西南民族大学与北大方正合作研发的彝文书版研发成功;2008年完成了“彝语六大方言语音库”的建设;2008年研制出的“彝汉双语平行语料库和术语库”是我国,也是世界上,第一个针对彝语和汉语的平行语料库和术语库;2009年研制出的“彝语语料库”是我国,也是世界上,第一个大规模的彝语语料资源库;2009年西南民族大学与中国社会科学院民族学与人类学所合作“彝语声学参数数据库”的研制成功,开创了彝语实验语音学研究的先河,也为西南少数民族语言实验语音学研究工作的开展进行了有意义的探索。2009年研制成功彝文手机,被誉为“彝语文发展进程中的里程碑”, 使历史悠久的彝族传统文化与移动通信技术相结合,为彝语言文字向科技化、信息化迈进开辟了一条新路,为彝区经济的发展注入新的活力;2009年11月,全国彝语术语标准化工作委员会在西南民族大学成立,这是我国彝语文信息化处理研究工作的一件大事,对进一步推动滇、川、黔、桂四省区彝语文全面规范化、标准化、信息化进程,促进彝语文信息化建设的健康发展具有重要的现实意义和深远的历史意义。
综上所述,在以西南民族大学沙马拉毅教授为主要代表的努力下,规范彝文信息处理技术发展30年的辉煌历史产生了一大批令人鼓舞的成果,这些成果概括起来可以归纳为如下几个方面:
(1)彝语文现代化取得丰硕成果,有关彝语文的规范化、信息化建设的一系列的国家法规、标准及规范已经形成。
(2)彝文信息处理技术已达到实用化水平,并在实际应用中日趋成熟。
(3)已建设完成一批颇具影响的信息处理用彝语言资源库,部分彝文信息处理技术已在实际应用中发挥作用。
(4)彝文信息处理的国内外学术交流与合作机构和环境已经建立,彝文信息处理正在时代信息化建设的浪潮中逐步开拓前进。
通过30年的社会实践,彝文信息处理的研究成果已经赢得了全国广大彝文计算机用户的青睐,现已广泛应用于全国党代会、全国人民代表大会、全国政协会、以及彝族地区的新闻出版、教学科研、国家机关等领域,发挥了巨大的社会效益,并且加快了彝语文工作的现代化和信息化建设的步伐,推进了彝族社会进入现代化信息时代的进程。
三、规范彝文信息处理技术的展望
从现有的中文信息处理理论和方法以及彝语言资源数据库的现状,规范彝文信息处理以后要做的研究课题相当多,如文字识别、语音识别、机器翻译及其他民族语言对照词库、跨平台的操作以及计算机彝文网络系统等等,还要开发基于彝语言资源库的多种应用系统,如果这些项目都实现了的话,规范彝文信息处理将会有更辉煌的发展与前景。
虽然规范彝文信息处理技术的研究虽然起步晚,但可以肯定,随着彝族地区经济文化的发展,规范彝文信息处理技术的应用上必将得到更大范围的发展。我们有理由相信规范彝文信息处理会像其他学科一样,需要经过众多学者长久的、坚持不懈的探索和实践。我们期待着语言学(包括计算语言学)、语音学、信息科学、智能科学、计算机科学、哲学等各个领域的专家密切合作,在规范彝文信息处理中实现“规则与统计共舞,语言随计算齐飞”。
四、结语
规范彝文信息处理方面的开发应用,不仅标志着规范彝语文的社会功能在这一领域的不断扩展,而且为彝语言文字的繁荣和发展,为彝语言文字的现代化开辟了广阔前景,更有利于促进民族地区政治、经济、文化的全面发展。
在今天,Internet把世界各地的计算机联接了起来,共享信息和技术是必然的趋势和需要,因此各地区、各民族之间的各种语言信息资源的互相交流变得越来越重要。规范彝文信息处理技术及其相关运用系统的研制开发,将会提高规范彝文使用者的工作效率,吸引跟多的彝文用户,提高规范彝文信息化的普及程度。更重要的是,开发基于文本理解的彝语言信息处理技术,对于促进规范彝文的现代化,促进彝族地区信息化的建设,宏扬优秀的民族文化等都具有重要的科学意义和社会意义。
[1] 戴庆夏,许寿椿、高喜奎.《中国各民族文字与电脑信息处理》[M] .中央民族学院出版社,1991.
[2] 沙马拉毅.《计算机彝文信息处理》[M] .四川民族出版社,2001.
[3] 刘开瑛.《中文文本自动分词和标注》[M] .商务印书馆,2000.5
[4] 冯志伟.《计算机中文信息处理》[M] .北京出版社,2001
[5] 姚天顺 、朱靖波等.《自然语言理解———种让机器懂得人类语言的研究》(第二版)[M] .清华大学出版社,2002.
[6] 俞士汶.《计算语言学概论》[M] .商务出版社,2003.
[7] 徐波.《中文信息处理若干重要问题》[M] .科学出版社,2004.
[8] 王克非等.《双语对应语料库研制与用》[M] .外语教学与研究出版社,2004.
[9] 朱民雄.《计算机语音技术》[M] .北京航空航天大学出版社,2002.
[10] 王士元、彭刚.《语言、语音与技术》[M] .上海教育出版社,2006.
[11] 吴宗济、林茂灿.《实验语音学概要》[M] .高等教育出版社,1989.
[12] 林焘、王理嘉.《语音学教程》[M] .北京大学出版社,1992.
[13] 刘颖 编.《计算语言学》[M] .清华大学出版社,2002.
[14] 沙马拉毅、钱玉趾.《规范彝文编码方案》[J] .中文信息学报,1990(3) :12-13
[15] 沙马拉毅.计算机彝文信息处理研究述论[J].西南民族学院学报:人文社科版,2002(4):6-9
[16] 钱玉趾,董天罡.彝文信息处理与沙马拉毅的原创性[J] .西南民族大学学报(人文社科版),2007(4):43-49
[17] 俞士汶.语言随计算齐飞[J].当代语言学,2009(2):97-99
[18]张普.关于大规模真实文本语料库的几点理论思考[J].语言文字应用,1999(1):34-43