基于职业特征的多模板汉字识别算法-字符识别-人工智能实验室AiLab-中国人工智能网-Powered by AiLab.cn

基于职业特征的多模板汉字识别算法

来源：互联网发布日期：2011-09-29 17:24:33 浏览：8393次

导读：基于职业特征的多模板汉字识别算法...

基于职业特征的多模板汉字识别算法
张洪刚郭军
(北京邮电大学信息工程系181# 100876)

                  【摘要】本文是在HCL2000汉字数据库的基础之上进行的研究，根据对HCL2000汉字库的职业的统计分析，我们得出了一些新的结论。各种职业与识别率的相关性是很大的，这说明不同的职业样本都有自己的特征，我们选取三种职业作为研究对象，按不同的职业分类训练，然后把训练特征用作模板特征，应用于多模板识别算法。识别结果证明，这种基于职业特征的多模板汉字识别算法的识别率比单模板识别算法平均高出1.13%。
                  【关键词】 HCL2000 汉字识别职业特征多模板匹配

                  1.引言
                      HCL2000(Handwritten Character Library
                  2000)汉字库是北京邮电大学在国家863支持下研制的一个脱机手写汉字数据库。HCL2000汉字库有两个特点，一是包含样本数量大，目前包含1300个人的汉字样本，并计划在2000年以前，使样本总数达到2000个;二是它不仅包含汉字样本库，而且还包含一个书写者信息库，它存放了每个汉字样本书写者的职业、年龄、性别、住址等相关的信息。书写者信息库的建立使我们可以研究各类人员的文字书写特征与影响识别率的相关因素[1]。

                  本文利用HCL2000对书写者的职业与其文字的识别率的关系进行的研究，我们发现样本的识别率与职业的相关性很大，这说明不同的职业有不同的特征，我们选取库中人数较多的三种职业工人、学生和军人，各选取100个样本，按职业进行分类训练，将训练的特征用作特征模板，然后用多模板识别算法进行识别。结果表明:这种基于职业特征的识别算法的识别率比原算法平均提高1.13%。

全文的安排如下:第二部分是三种职业的识别结果分析，第三部分是基于职业特征的多模板识别算法介绍，最后一部分是全文的总结。
                  2.三种职业的识别结果分析

                  我们根据书写者信息库所提供的有关书写者的信息，对库中的职业与识别率的相关性作了研究，识别用的特征是用中科院的100个样本和从HCL2000库中选出的200个样本训练而成的。我们得到的识别率与职业的分布图:

                                       图1 识别率与各职业的分布图

                  从上图可以看出:职业与识别率的相关性是很大的。识别率最高的是科技人员与教师，识别率最低的职业是医生，科技人员与医生的样本识别率之差达5.58%。

                  我们选取HCL2000汉字库中三种所占比例最大的职业工人、学生和军人的样本作为研究的对象。从这三种职业中分别抽取100个人的样本集作为每种职业的训练样本。分别抽取这三种职业的特征，制成三个标准的特征模板。然后从三种职业中各随机选取10个样本集作为识别样本，这30个识别样本集并不包含原来的训练样本。30个样本集中前10个为工人的样本，中间10个为学生的样本，后10个为军人的样本。然后分别用这三个特征模板，采用文献[2]的算法进行识别，识别结果如下图: