首页 >> 专题 >> 学科专题 >> 语言学专题 >> 当汉语研究遇到人工智能 >> 汉语信息处理主要成就
汉字识别系统
2015年09月28日 14:39 来源:《当代语言学》第3卷2001年第1期 作者:冯志伟 字号

内容摘要:我国自70年代开始汉字自动识别的研究,自1986年以来取得了很大的成绩。

关键词:汉字识别;输入法;自动识别;冯志伟;汉字信息处理

作者简介:

  我国自70年代开始汉字自动识别的研究,1986年以来取得了很大的成绩。联机手写体汉字识别已经商品化,有些产品的性能达到了国际水平.识别的汉字字数为676312000,初次使用的识别正确率为80%左右,经常使用可达95%以上,识别速度基本上能跟上人的书写速度。清华文通信息技术公司研制的“文通笔”,可以用来直接书写汉字输入计算机,用户用不着学习任何汉字输入法,只要会写汉字,就可以在书写板上把汉字输入到计算机中。 

  印刷体汉字识别也开始实用化。有十多个单位推出了实用化系统,可识别国家标准的l级和2级简体汉字37556763,繁体汉字5401;可识别的汉字字体,简体有宋、仿宋、报宋、黑、楷以及多体混排,繁体有明、楷、仿、黑等,也可以识别多体英文混排;识别速度用286微机时为每秒914个汉字,386微机时为每秒20个汉字:识别正确率,对低等质量的印刷品为95%以下,对中等质量的印刷品为98%99%,对高等质量的印刷品则达到99%以上:输入设备大多采用普及型图形扫描器或传真机,能识别印刷体的字号为3号到5号。这些系统配备了方便的用户界面,能够进行版面分析、文本识别、识别结果的后处理、自动纠错、编辑、输出等。 

  脱机手写印刷休汉字和无书写限制的脱机手写体汉字的识别近几年也进行了许多研究,建成了一些试验系统。现已有近于实用的交互式自学脱机手写体汉字识别系统,可识别国标一级汉`3755,如果加上专用特征库就可识别不加任何书写限制的汉字,识别速度用386微机时为每秒1个汉字。 

  由于我国的汉字识别系统几乎都是在汉字操作系统下工作的,识别结果为汉字内码,因而可以把识别出的汉字直接在计算机上显示或打印出来。 

  汉字识别如果不是仅仅局限于一个字一个字地孤立地进行模式匹配,而且还能利用词以及上下文关系的信息,那么将会显著地提高识别的正确率。例如,在汉字识别系统中,可利用汉字单词和词组的信息来进行自动纠错,利用语言知识修改部分误识字,利用词的联想来修改误识字和拒识字,在这些方面都获得了很好的识别效果。因此,把自然语言计算机处理的技术应用到汉字的自动识别中,将会使汉字自动识别系统如虎添翼。 

分享到: 0 转载请注明来源:中国社会科学网 (责编:王婷婷)
W020180116412817190956.jpg
用户昵称:  (您填写的昵称将出现在评论列表中)  匿名
 验证码 
所有评论仅代表网友意见
最新发表的评论0条,总共0 查看全部评论

回到频道首页
QQ图片20180105134100.jpg
jrtt.jpg
wxgzh.jpg
777.jpg
内文页广告3(手机版).jpg
中国社会科学院概况|中国社会科学杂志社简介|关于我们|法律顾问|广告服务|网站声明|联系我们