• 个人礼仪
  • 商务礼仪
  • 职场礼仪
  • 饮食礼仪
  • 鲜花礼仪
  • 送礼礼仪
  • 婚宴婚庆礼仪
  • 当前位置: 工作范文网 > 礼仪 > 送礼礼仪 > 正文

    浅议中文信息处理技术在外汉语教学中的运用

    时间:2020-12-01 12:07:59 来源:工作范文网 本文已影响 工作范文网手机站

    摘 要:20世纪80年代以来,随着现代通讯技术的迅速发展和普及,以计算机为工具的语言信息处理成为计算机科学与语言学交叉领域研究的热点。近十几年来,对外汉语教学发展迅速,汉语在世界范围内逐渐成为继英语之后的强势语言,中文信息处理在对外汉语教学中日渐发挥重要作用。本文对中文信息处理和中文信息处理的其他工作对对外汉语教学产生的作用予以归纳阐述,并对这一领域的科研成果以及学术活动情况做简要介绍,最后对在对外汉语教学实践中中文信息处理所面临的挑战给予展望。

    关键词:对外汉语教学 中文信息处理 研究综述

    一、中文信息处理理论

    中文信息处理就是用计算机来加工处理中文的信息,这是一门涉及计算机科学、认知科学、语言学、信息学、数学、声学等多种学科的一门综合性交叉学科。本文所涉及的“中文信息处理”首先特指对《中华人民共和国国家通用语言文字法》所规定的普通话和规范汉字的信息处理,同时也包括对汉字承载的传统文化的处理。根据中华人民共和国国家标准《汉语信息处理词汇 01 部分:基本词汇》[1]的规定:语言信息处理是指:“用计算机对自然语言的音、形、义等信息进行处理。即对字、词、句、篇章的输入、输出、识别、分析、理解、生成等的造作与加工。”汉语信息合理和其他各民族的语言信息处理都属于语言信息处理。汉语信息处理是指用计算机对汉语的音、形、义等信息进行处理,有时又称中文信息处理。汉字信息处理是指用计算机对汉字表示的信息进行操作与加工,如汉字的输入、输出、识别等。本文中的“中文”与“汉字”指称同一概念,特指汉语。

    计算机技术应用于对外汉语教学与研究最基本的条件是中文信息处理环境,也就是中文信息平台。中文信息平台是指具有对汉字进行编码、处理、传输的能力并且具有中文输入、输出界面的操作系统。多文种平台,是指能同时处理两种或两种以上语文的操作系统。[2]中文信息平台极为重要的指标是支持什么样的汉字编码标准,编码系统混淆必定会产生乱码。汉字编码,本质上是把无须的、开放的汉字集合变成相对封闭的有序集合,以数字化形态实现汉字信息的处理、储存和传输。1981年国家标准局公布的《信息交换用汉字编码字符集·基本集》收录了6763个汉字和682个非汉字图形字符,目前大量的对外汉语教学软件和电子资料都建立在这个基础之上。其后陆续出台的几个国际标准,最多包含了27000个汉字,为汉语教学、双语处理提供了方便。

    在对外汉语教学中建设现代汉语语料库是一项基础的工程。汉代汉语语料库可以辅助制定教学大纲、编写教材、查找例句、编写教案、编出试题等等,为对外汉语教学工作提供极大的帮助。现代汉语语料库的建立要经历原始预料收集、提取粗语料、提取精语料几个过程。

    二、中文信息处理与对外汉语教学

    中文信息处理技术的大力发展对对外汉学教学也有积极的作用。中文信息处理技术在技术资源建设、理论方法研究和具体技术应用开发方面对对外汉语教学的发展都起到了积极的作用。

    1.基础资源建设

    语言资料库在是对外汉语教学的一个重要工具,它包括语料库、词汇知识库和语法语义辞典等。语言资料库构成了不同层面上的自然语言处理得以实现的基础。1979年,武汉大学建设了527万字的汉语现代文学作品语料库;1983年,2000万字的现代汉语语料库在北京航空航天大学建成;同时在北京师范大学还建成了106万字的中学语文教材语料库,北京语言大学建成了182万字的现代汉语词频统计语料库。近20多年来,北京大学、清华大学、教育部语言文学应用研究所、山西大学、哈尔滨工业大学、北京语言大学、东北大学、中科院自动化所、科技部中信所、中国传媒大学、台湾中央研究院和香港城市大学等相当一批的大学和研究机构都对汉语资源库建设做了大量工作。其中,北京大学计算语言学院研究所开发的“综合型语言知识库”、董振东等开发的“知网”(HowNet)是两项有代表性的成果,而中文语言资源联盟(Chinese Language Data Consortium,缩写:Chinese LDC)则是为推动我国语言资源共享所建立的第一个联盟性学术组织。

    (1)综合型语言知识库

    北京大学计算语言学研究所的语言资源建设工作始于1986年,从研制《现代汉语语法信息词典》起步。该词典曾获1998年度教育部科技进步奖二等奖。在此成果的基础上,于1995年提出建立综合型语言知识库的规划,经过十多年的努力,综合型语言知识库取得了阶段性成果,并于2007年获教育部科技进步奖一等奖。

    申报奖励之前,综合型语言知识库通过了教育部组织的技术鉴定:“其规模、深度、质量和应用效果在我国语言工程实践中是前所未有的。该成果是以汉语为核心的多语言知识库建设中最全面、最重要的研究成果,总体上达到了国际领先水平。”该项成果为推动以汉语为核心的多语言信息处理技术的发展做出了重要的贡献,并取得了显著的经济效益。作为单项技术成果,在北京大学创下了转让次数最多的记录。

    综合型语言知识库在汉语计算语言学理论、汉语语言知识形式化描述、语言知识库构建技术以及多语言知识融合技术等方面都有所创新。目前它包含的语言资源包括现代汉语语法信息词典、现代汉语语义词典、中英文概念词典、汉语短语结构知识库、现代汉语大规模基本标注语料库、汉英双语对齐语料库以及多个专业领域的术语库。在对外汉语教学实践中,综合型语言知识库以其完整的语言知识网络、快捷的信息处理技术发挥着不可替代的作用。同时,综合型语言知识库仍在继续发展,研制中的综合型语言知识库系统不仅把现有的语言知识资源集成为一个有机的整体,各个成员知识库可以互相参照,互相印证,而且进一步挖掘深层的语言知识,发展概率型汉语词汇知识库,让语言知识库建设更上一层楼。

    (2)知网

    知网(HowNet)是董振东教授提出并创建的语言知识库,是一个以汉语和英语的词语所代表的概念为描述对象,以解释概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。知网是一个构思严密的知识系统也是一个名副其实的意义网络,它主要反映的是概念的共性和个性。在知网中,义原是一个很重要的概念,指最基本的、不易于再分割的意义的最小单位。知网体系的基本设想是,所有的概念都可以分解成各种各样的义原,义原又组合成一个无限的概念集合。董振东教授认为,中文中的字(包括单纯词)是有限的,并且它可以被用来表达各种各样的单纯的或复杂的概念,以及表达概念与概念之间、概念的属性与属性之间的关系。因此,知网从大约6000个汉字中提取了这个有限的义原集合。知网是在线的,修改和增删都很方便,因此其规模是动态的。目前,知网已作为中文信息处理技术研究和系统开发重要的基础资源,被广泛的应用于词汇语义相似性计算、词义消歧、名词实体识别和文本分类等许多方面。其中词汇语义相似性计算和名词实体识别在对外汉语教学中对词语相似性辨析有很大的作用。

    (3)中文语言资源联盟

    在国家重点基础研究发展规划项目(973项目)“图像、语音、自然语言理解与知识挖掘”的支持下,由中科院自动化所、清华大学、教育部语用所和中科院计算所发起,于2003年成立了中文语言数据联盟。目标是建成达到国际水平的,具有完整性、系统性、规范性和权威性的通用中文语言资源库及中文信息处理的测评体制,为汉语语言信息处理的基础研究和应用开发提供支持,促进汉语语言信息处理技术的不断进步。目前已拥有会员单位70多个、各类语言资源80余种,包括8~10万词的《汉语通用词表》、25000~30000词的《汉语语法信息词典(高频词)》、500万字的《分词词性标注语料库》、100万字的《汉语语法树库》、20万句对的《中英双语语料库》等。其中30%数据资源对会员免费,从而在全世界范围内实现中文语言数据资源的共享。ChineseLDC于2006年运营以来,平均每天都有数十人次的网站访问和电话咨询。到目前为止,已共享资源200多套,授权使用单位40多个,包括美国、加拿大、德国、日本、澳大利亚等国内外著名科研机构和公司若干单位已经通过该平台获取了中文信息处理科研工作所需的基础资源,为对外汉语教学事业的拓展做出了并不可估量的贡献。

    2.理论方法研究

    概念层次网络理论的提出是中文信息处理研究中的一个有益探索。进入20世纪80年代以后,汉语分词与词性标注方法研究得到了快速的发展。全切分分词方法、最短路径分词方法、N-最短路径分词方法、基于隐马尔可夫模型(HMM)或n元语法的分词方法等一系列分词方法相继提出。1992年,《信息处理用现代汉语分词规范》被国家技术监督局批准(GB13715),并于1993年5月1日在全国实行。20世纪90年代,面向机器翻译提出的SC文法,从某种意义上拓展了复杂特征集理论和合一文法,而《现代汉语语法信息词典》和“知网”是我国学者结合汉语特点和规律对词汇主义思想的进一步发展和应用。

    3.具体技术应用开发

    相对于理论方法研究而言,中文信息处理应用技术开发和产业化进程中的成果是琳琅满目。进入21世纪以来,基于大规模语料库的统计方法在自然语言处理中得到了快速发展,以语料库为研究对象和基础的语料库语言学迅速崛起。前面提到语音识别对对外汉语教学有极大帮助。中科院自动化所、声学所、中国科技大学、清华大学、北京交通大学、哈尔滨工业大学等在语音识别、语音合成方面做了大量研究和开发工作。语音识别、语音合成系统在实际应用中取得了丰硕的成果。

    由国家语言文字工作委员会组织编纂发布的《中国语言生活绿皮书》是为国家语言方针政策的决策提供参考,为语言文字研究者、语言文字产品研发者和社会其他人是提供语言服务,引领社会语言生活走向和谐。《中国语言生活绿皮书》也为对外汉语教学指引了方向,为具体教学提供了依据。它既是中文信息处理研究成果的具体体现,也是对外汉语教学研究的重要参考。

    三、挑战与展望

    近20年来,中文信息处理技术对对外汉语教学事业起到了巨大的促进作用,这些作用概括起来可以归纳为如下几个方面:

    (1)对外汉语教育现代化去的丰硕成果,有关规范化教学等一系列的国家法规、标准及规范已经形成;

    (2)汉字信息处理技术在对外汉语教学中已达到实用化水平,并在实际应用中日趋成熟;

    (3)已经建成一批具有国际影响力的汉语信息处理用语言资源库,汉语信息处理技术已应用在对外汉语教学实践中;

    (4)中文信息处理的国内学术交流与合作环境已经建立,中文信息处理正为国内外的对外汉语教学事业发展发挥巨大作用。

    在取得巨大成果的同时,我们必须看到中文信息处理毕竟是认知科学、语言学和计算机科学等诸多学科交叉的复杂问题,仍然面临若干尚未解决的难题。同时随着计算机网络和各种通讯技术的迅速发展,许多新的应用需求对自然语言处理技术提出了更高的要求。在语言资源库建设方面,至今仍缺乏基本的国家规范和标准,语料库和知识库的开发仍呈现“百家争鸣”的局面,许多成果难以共享和整合。但是随着科技的进步和技术的创新,我们期待着中文信息处理技术能在对外汉语教育事业发挥更大的作用。

    参考文献:

    [1]国家技术监督局1990年2月1日发布,8月1日实施,标准号:GB 12200. 1-90

    [2]赵金铭.对外汉语教学概论[M].北京:商务印书馆,2009.

    [3]刘珣.对外汉语教育学引论[M].北京:北京语言大学出版社,2000.

    [4]王建勤.汉语作为第二语言的习得研究[M].北京:北京语言大学出版社,1997.

    [5]俞士汶.建设综合型语言知识库的理念与成果的价值[J].中文信息学报,2007,(6).

    [6]俞士汶,朱学锋.语文现代化与汉语信息处理技术[G].苏培成.语文现代化丛论(第六辑).北京:语文出版社,2006.

    [7]张普.共和国的中文信息处理60年[J].语言文字应用,2009(3).

    [8]赵金铭.对外汉语教学概论[M].北京:商务印书馆,2009.

    作者简介:周玉珊(1986—),女,四川内江,四川外语学院研究生部2009级汉语言文字学专业硕士研究生,研究方向:对外汉语教学。

    有关的专题