 |
基础技术 |
| 汉语文本自动标注拼音 |
| 概况介绍 |
汉语拼音,是用于汉语普通话读音的标注,作为汉字的一种普通话音标。汉语拼音对普及识字以及初等教育有很大的作用,主要作为阅读学习和帮助。
问天汉语文本自动标注拼音系统(WinPY)是对汉语文本中的汉字进行自动的拼音标注,并自动为汉语中多音字挑选合适的拼音。 |
| 体系结构 |
WinPY体系结构图如下:
|
 |
| 汉语文本自动标注拼音模型输入是汉语文本,通过调用外部分词器对句子进行分词,将分词后的汉语句子输入给拼音标注模块,再通过查找多音字词表和单字词规则文档对分好的词作拼音标注,输出是标注拼音的句子。 |
| 系统特点 |
| 系统使用开放的分词接口,调用的分词器的准确率越高将会获得更好的标注结果。含有多音字的多字词使用多音字词表标注拼音,而对多音字构成的单字词使用统计获得的单字词规则文件进行拼音标注。 |
| 系统功能 |
| 能够为输入的汉语句子自动标注拼音,为多音字挑选合适的拼音。输入为一个汉语句子,输出为带拼音标注的句子,并为每个字列出该字的所有候选拼音。基于准确率较高的分词器,系统的准确率可达到99%。 |
| 技术特点 |
| 对已分词的句子使用多音字词表为句子中汉字注音,并对含有多音字的叠词作特殊处理,最后使用统计获得的单字词多音字规则文件,为句子中多音字标注的拼音校音。提高了拼音标注的准确率和系统运行速率,同时系统具有较少的内存占用量。 |
| 应用领域 |
| 作为汉字的一种普通话音标,汉语拼音的自动标注可广泛用于汉语教学、文章阅读等教学领域。此外,汉语文本自动标注拼音系统可以使音字转换研究中人工标注语料库的工作更加轻松。
|
| |