您的当前位置:首页中文信息处理的应用的研究报告

中文信息处理的应用的研究报告

2021-01-25 来源:小侦探旅游网
--WORD格式---可编辑---

中文信息处理的应用研究报告

在多元化的信息中,文字信息是一种最普遍的形式。例如:文件、信函、报表、记录、印刷品等基本上采用文字表达的形式。

“中文信息处理”一词是从20世纪70年代流行起来的,实际上,自古以来,中文信息处理工作源远流长。可以说,自从有了中文(汉字),即相应地出现了中文信息处理的工作。从开始编制第一部汉字字典和编写第一篇文摘起就开始了中文信息的分析与综合处理的研究。然而,现代人们言及的“中文信息处理”包括了有关中文信息的采集、存储、传输和利用,是指利用电子计算机和现代通信、照明、排版、等自动化技术对汉字信息进行输入输出整理、加工、转换、传输、复制、等各种处理的一项新兴的科学技术。其交叉性使之成为“信息科学”的分支;其综合性应用使之成为“系统工程”的一个实例。它涉及到语言文字学、计算机科学、信息科学、工程心理学、数理统计学、声学、自动识别技术、人工智能、网络技术、文献检索学等等。故可以说它是一门新兴的多边缘科学。中国要实施先进的信息处理技术手段,中文信息化是一项重要的资源开发工作。中文信息网已逐渐成为我国现代化社会的神经系统,它将促进人民文化和社会生产效率迅速提高。中文信息处理工程已建立起现代化中文语言文字信息系统,使凝聚在语言文字中的知识信息发挥更大效能,使汉语汉字得到最佳利用。

计算机中文信息处理技术从70年代至今,经历20多年,完成了由初级阶段向比较成熟阶段的过渡,这是微电子技术和IT技术高速发展以及迫切的应用需求所促成的。 现在,许多移动电话都已具备中文菜单和显示中文短信息功能,但都有缺陷,还不是真正意义上的“全中文”。只有当它既能显示中文又能输入和处理中文,也就是说,能直接利用手机进行中文输入时,才可以说是“全中文”。然而,一般移动电话仅有数字键,这无疑对汉字数字输入法(简称数字码)提出了很迫切也是很高的要求。顺便说一下,在WAP技术成为新的热点之时,连英文也面临着需要编码输入的严峻事实。

当前,美国、日本及我国香港特区都在大力发展一种双向寻呼机,它同时具有输入功能,即,它同样也面临着中文处理问题。还有电子词典,如何高效、规范化地利用电子字典查找汉字和单词,也是只能各位信息处理应该解决的问题。

--

--WORD格式---可编辑---

信息家电也会是一个热门话题,它也面临着中文信息处理的问题。另外,从计算机本身的发展来看,手持机(包括PDA和汽车电脑)和可佩带式计算机的中文信息处理尚有诸多问题需要解决。可佩带式计算机还处于发展初期,其应用领域广泛,尤其在军事上有很大的用途,面临新军事革命的挑战,我国在研究其相应设备时,首先遇到的就是中文信息处理问题。

微软和IBM公司在中国成立了研究院和研究中心,广揽人才,其主要研究方向是中文信息处理。

在计算机网络方面,中文信息处理将具有更加广阔的前景。高效的中文搜索引擎、电子邮件、中文电子商务等技术均与中文信息处理密切相关。移动电话、信息终端等电子设备对以数字为基础的计算机汉字输入方法的需求又成为研究领域的新热点。在语音识别汉字输入方面,硬件的进一步微型化、连续语音识别、噪声背景下的语音识别以及汉语口语理解等都是亟待解决的难点。手写汉字识别技术方面,联机状态下的笔写入方式,通常的麻烦就是字与字之间书写的停顿时间不易控制,手写得慢了,多部首的组合汉字被分了家,造字错字;写得快了,或字与字之间的停顿太短,会将两个单字拼凑成一个字,又成了错字。 尽管有调整改变手写速度“快速、中速、慢速”等技术措施,实用中却使人感到频繁换用鼠标时的不便乃至产生厌烦情绪而不愿使用了。非特定的脱机手写汉字识别的困难则更多。 目前任处于实验研究阶段,尚未进入真正实用状态,还有许多棘手难题需要逐步解决。因此,在今后数十年内,中文键盘输入方法任然会是处于主导地位的输入技术。

文字信息的表现形式是多元化的。文字信息是大多数信息表现形式的基础,而文字信息处理则是基础的基础。中文信息处理包含中文文字信息处理、中文文献信息处理以及中文的各种管理系统和服务性系统。

利用计算机解决汉字的信息处理问题是20世纪中期以来的事,它包含有输入、存储、处理、传送、输出等环节。下面着重介绍输入和输出两个环节。 汉字的输入技术。

1.单字、词汇和语句的键盘输入

(1)专用型的中键盘或大键盘整字输入方式

--

--WORD格式---可编辑---

大键盘:一键一字输入方式。 中键盘:一键多字输入方式。 (2)通用小键盘

拼音方式:利用字音编码输入。 汉语拼音方式:全拼音方式。 双拼方式。

拼形方式:利用字形特征编码输入。 笔画笔形式 偏旁部首式 字形结构式 混合式。

音形混合:以音为主,以形为辅 形音混合:以形为主,以音为辅 2.手写输入方式 3.语音输入方式 4.扫描方式 5.传真方式 汉字的输出技术 1.汉字的输出有多种方式

(1)屏幕显示:显像管显示器、液晶显示器; (2)打印机:针打式、喷墨式、激光打印; (3)语音输出; (4)绘图仪; (5)传真机。

2.汉字输入输出所必需的汉字库

计算机系统中存储汉字字形信息的字库,字库分为三种类型:

--

--WORD格式---可编辑---

(1)点阵字库; (2)矢量字库;

(3)曲线字库:整字轮廓字库、压缩字库。 中文信息处理基础理论方面的研究内容

(1)汉字识别(包括印刷字体、限制性手写字体及一般手写字体); (2)汉语语音识别(包括语音波形编码和解码、语音的分解与合成); (3)汉语自然语言的理解与处理; (4)汉语的机器翻译;

(5)中文文献的自动勘误、自动标引和自动文摘; (6)汉字的单字、词汇使用频度的研究; (7)汉语的词语、语法、语料库研究; (8)中文信息处理应用平台研究; (9)汉字编码理论研究; (10)汉字编码方法研究; (11)汉字编码方案评测标准研究。 中文文献信息处理工作内容

(1)利用各种编辑软件进行编辑排版。 (2)利用制表软件编制各种表格。

(3)利用数据库软件建立各种各样的文献信息数据库及其他各种应用软件系统,例如:研制各种类型图书馆或文献服务中心的集成式管理系统、检索系统;档案部门的集成式管理系统、检索系统;出版社、书店的集成式管理系统、检索系统;各种书刊文献、档案的自动分类系统、自动编文摘系统或其他的智能式文献处理系统。 应用中文的各种管理系统和服务性系统

国家各部门、厂矿企业、银行、医院、酒店的管理系统,专家系统,信息咨询检索系统,电化教学系统,远程教育系统,电子印刷排版系统,办公自动化系统,翻译系统,通信

--

--WORD格式---可编辑---

系统,财会系统,售票系统,咨询服务系统,电话系统等等,多不胜数。随着计算机信息处理应用范围的扩大,中文信息处理技术还将逐步深入和提高。

中文信息处理的特点是与西文信息处理相比较而言的,特点和任务是相互联系的。下面从文字、词汇、语音、语法以及软硬件系统等方面作一下介绍。 一、中文信息处理的特点 (一)大字符集

英文等西方语言的书写符号使用的是字母表式文字符号系统,字母数量较少。一种文字,包括大小写、数字及各种标点符号等,总共不过几十个,属于“小字符集”。例如:拉丁字母符号有26个;斯拉夫字母有33个;日文假名号称“五十音图”,实际上只有48个,平假名和片假名合在一起共96个;韩文字母有10个元音字母,14个辅音字母,一共24个;汉语注音字母有40个,采用拉丁字母后的《汉语拼音方案》有26个字母。

汉字属于“大字符集”:常用汉字3500个,通用汉字7000个,历史累积汉字多达6万。千百年来,代有递增:从东汉末年的《说文解字》到清代《康熙字典》,1500多年的时间里汉字的数量就从9353字增加到47043字,平均每300年又增加了7000多字。1994年《中华字典》创造了字典收字数量之最——字头数多达86000个。

国家标准《信息处理交换用汉字编码字符集.基本集》(GB2312-80)共收汉字图形字符6763个。我国港台地区使用的繁体汉字13053个。《统一的中日汉国标准大字符集》(CJK)收字20902个。这仅仅是中国(包括台湾)、日本、韩国,当前电脑中所使用的汉字。要实现“全汉字”的信息处理大目标,单是汉字库的研制就任重道远。 (二)编码方案众多

使用字母数字键盘输入汉字信息,必须通过汉字编码。

因为汉字是形音义的统一体,编码时所采用的信息类型不同,会有不同的编码规则和方案。因此,无论从编码的角度,还是从使用者的角度,都面临多样化的选择。 (三)形体多样,结构复杂

一个汉字就是一个独立的二维的拓扑图形。五种基本笔画“横”、“竖”、“撇”、“点”、“折”、,存在多种笔形变体。如:“千”、“面”、“令”、“木”、“才”等字中的“撇”,“方”、“房”、“放”、

--

--WORD格式---可编辑---

“芳”、“游”等字中的“方”。汉字结构层叠错落,笔画、字根、偏旁、部首、部件、字元,见仁见智,难以统一,这些汉字字库的研制以及字形的标准化都带来了相当打的困难。 (四)汉字方言分歧严重

现代汉语有七大方言区,每个方言区内又有次方言区,次方言区下还有不同的方言点。普通话普及应用水平远未达到语音识别、人机对话所要求的规范化和标准化的程度。因此,方言语音分歧成为语音信息处理的瓶颈。 (五)同音现象突出

现代汉语共有4125个不标调音节,按《基本字符集》6763个汉字计算,每个音节约有16.4个同音字;如按《汉语大字典》54678字计算,每个音节的同音字平均达到132.7个。

(六)书面含有没有分词标志

西方采用拼音文字,书面上词与词之间用空格加以分隔,因此很容易进行词汇的统计分析和认知处理。 (七)汉语没有形态

汉语的词无论冲当什么成分,构成什么关系,词形本身没有任何变化,只有依靠虚词、语序进行语法分析,不利于计算机的处理。 (八)词的兼类与活用复杂 词类划分不一,存在大量“兼类”。 (九)语法规则多有例外

词语搭配缺乏规范化的约束,人们习惯于意会而不注重形式标志的规则。 (十)歧义现象突出

词汇歧义本来是语言中的一个比较普遍的现象。 二、中文信息处理的展望

中文信息处理三十年来的发展,在几个重要领域,如汉字编码、汉字语音模式识别、字型技术中文电子辞典,计算机辅助翻译、全文检索等方面,都取得了举世瞩目的成就。由于

--

--WORD格式---可编辑---

汉语言文字的特殊性和我国的具体国情,与世界发达国家信息处理技术相比,还有相当大的距离。

未来中文信息处理的创新发展,概括起来主要有以下几个方面: (一)信息化

当代世界已经进入信息网络化时代,全面信息化是社会发展和科技进步的主流。信息处理技术的水平反映了一个国家和民族的生存能力、生存质量、综合竞争力。

在这样一个时代,充分必要的信息和先进的信息处理技术都是极其重要的资源,如果不掌握它、控制它和利用它,无论对个人还是对整个社会,都将是一种悲剧。因此,一切竞争都集中反映在信息的获取、传输、处理和运用技术上。应该把推进社会全面信息化作为中文信息处理基础应用研究的首要任务。 (二)智能化

从计算机实现由数据处理到信息处理跨越的那一刻,就极力信息工程界的先驱者们开始了计算机智能化的研究。虽然历史不长,但是,初始化的灵感与冲动给人们描述了美好而诱人的前景。

机器人战胜国际象棋冠军的实例,演示了计算机智能在与“个体人”的智能之间的一次较量,证明了计算机能够战胜“个体人”。从这个意义上说,计算机智能是具有无限前景的一个新领域。

计算机究竟能不能获得智能,如何获得智能,以及计算机智能与人类智能的同质性和异质性,等等,尽管目前还没有答案,但可以肯定地说,计算机人工智能与语言文字信息处理智能化密切相关。

应该充分认识到,中文信息处理智能化与我国的社会发展、科技进步、文化教育、经济建设以及国家安全有着密切关系。信息处理技术智能化的竞争是一个没有硝烟的战场。在这场关系到民族和国家生存、发展的竞争中,只能前进,不能后退,只能成功,不能失败。 (三)工程化

知识经济是计算机信息革命引发的新概念,语言应用研究成果的产品化和市场化是知识经济的一个重要表现,中文信息处理工程化是信息网络时代的重要特征之一。应当从系统工

--

--WORD格式---可编辑---

程的角度看待和从事中文信息处理基础应用的创新研究,处理好汉化、兼容与自主创新的关系。

中国人对国外软件硬件产品和技术汉化的过程,存在一个消化理解和改造创新的问题。由于国际化市场经济规律的作用,国外许多计算机软件公司纷纷瞄准中国市场,投资开发中文应用软件。微软公司凭借其强大的经济技术实力和现代化软件工程的概念,在中文信息处理领域,主动汉化与兼容,展开了全方位、友好界面的系统攻关,不断推出使用方便、服务周到、技术含量高的包括简繁兼容、中日韩汉字兼容等的应用系统,成为市场的主流产品。着对我国中文信息处理软件行业的生存和发展、对中文信息处理技术的进步和数据安全等,都是一个巨大的挑战。 (四)国际化

中国拥有世界四分之一的人口,中国改革开放和经济腾飞不仅改变了中国人民的生活水平和生存方式,也使中国的和平崛起战略在全球一体化大潮中直接间接的影响和改变着世界。

中文信息处理技术已成为世界瞩目的热点。单纯从经济目的出发,也足以吸引世界发达国家信息工程界有识之士的目光。

微软、IBM等多家外国计算机公司在我国设立研究所,聘用我国信息处理人才,在汉字编码、汉字识别、语音识别等许多领域,投入巨额经费,从事中文信息处理智能化的研究。 事实证明,中国要走向世界,中文也要走向世界,国际化是鲜红我信息处理发展的必然趋势。

(五)标准化

中国不但是人口达国,还是民族大多,多方言大国。中国语言文字具有悠久的历史传统,载负了丰富灿烂的文化遗产。全球范围内方兴未艾的“汉语热”,给中文信息处理提供了新的研究课题和发展空间。因此,应当充分认识和发挥我们的资源优势,在自主创新方面掌握主动权。

--

--WORD格式---可编辑---

汉语没有严格意义的形态标志这一特点,使西方计算语言成果和经验不能完全适用,同时增加了计算机自动分词识别和句法语义分析的难度。因此,汉语言文字的规范化已经成为中文信息处理智能化的瓶颈。在汉语言文字的规范方面,中国人有发言权。

在信息技术和信息产业方面,永远是“一流出标准,二流出技术,三流出人工”。如何把汉语言文字规范化的成果变成全世界都遵守的标准,把汉语言位子信息资源变成巨大无比的财富,应当成为当前和未来中文信息处理基础应用研究的首要课题。

--

因篇幅问题不能全部显示,请点此查看更多更全内容