 |
应用系统 |
| 中文自动校对 |
| 概况介绍 |
中文文本自动校对是应用自然语言处理技术自动查出文本中的输入错误,由于中文的输入不存在拼写错误,无法像英文那样以词典匹配的方式进行错误查找,所以中文的自动校对工作面临很大的困难。
对中文的文本错误,一般将其分为插入、替换和删除三类错误。例如:
把学生氛围(分为)两组。(替换错误)
不断演深化经济体制改革。(插入错误)
孩子们有了一种真(切)的体会。(删除错误)
问天中文文本校对系统(WinCK)有两项功能:一是查错,即找出文本中的错误位置;二是纠错,即提供一个修改建议的候选词集。
针对文本中错误的特点,WinCK系统采用二级查错的方法,一级是使用字的n-gram技术,进行字词一级的校对;另一级使用依存分析技术,进行句子一级的校对。 |
| 技术特点 |
| WinCK系统用字的三元模型对文本进行局部的分析与错误查找,同时将依存文法分析应用于自动校对中,由于依存文法对句子进行全局分析,指出了句子中词与词之间的依存关系,所以能够有效的查找出文本中的远距离搭配错误,补充了n元语法的不足。结合对文本的散串分析,有效地实现了一个高效的中文自动校对系统。 |
| 性能指标 |
以准确率(Precision)和召回率(Recall)作为校对系统的评价标准,令:
A=文本中的错误总数;
B=校对系统报错的总数;
C=系统正确查出的错误总数;
则:召回率=C/A,准确率=C/B。
为了便于对不同的校对方法进行比较,采用F measures对系统的总体性能进行评价,F measures定义为: |
 |
|
| 系统测试时,选择了360句真实的文本对Microsoft Word的校对模块和WinCK的校对系统进行对比测试,文本为五笔字型输入法输入。全部文本共有5586个字,192个错误,错误率为3.44%,其中多字错误22个,少字错误48个,替换错误122个。测试结果如下: |
| 真实文本的实验结果 |
| |
准确率 |
召回率 |
F |
Microsoft Word
|
57.41%
|
48.34% |
52.58% |
| WinCK |
59.35% |
66.15% |
62.57% |
|
| 从测试结果中能够看出,Win可有效的查出文本中的多数错误,反映系统性能的F值比Microsoft Word的校对模块高出约10个百分点。 |
| 应用领域 |
| 对键盘输入和OCR输入的中文校对达到实用化的应用。 |
| |