 |
基础技术 |
| 中文依存句法分析 |
| 概况介绍 |
问天依存句法分析系统(WinDPS)用于对汉语进行句法分析,将句子由一个线性序列转化为一棵
结构化的依存分析树,通过依存弧反映句子中词汇之间的依存关系,例如:“武汉取消了49个收费项
目”,依存分析的结果如下:
|
 |
|
| 由于句法分析识别出句子的语法结构,对语言的处理不再局限于表层的匹配,而是深入语言的内部结构。其分析结果为信息检索、机器翻译、信息抽取等应用领域提供有力的支持。 |
| 技术特点 |
有效利用句法结构和词汇化是句法分析建模所面临的两个主要困难,WinDPS系统在这两方面做了有效的改进。首先,标注了10万句的大规模依存树库,提供较为丰富的词汇信息来源。通过对大规模依存树库的统计学习,获取其中的词汇依存信息,建立了一个词汇化的概率分析模型。然后引入词汇支配度的概念,充分利用了句子中的结构信息。该词汇化方法有效地弥补了以前工作中词性信息的粒度过粗问题,同时词汇支配度增强了对句法结构的识别,有效地避免了非法结构的生成。
在分析算法上,WinDPS使用一个确定性的搜索算法,在线性时间内对句子进行解码。使分析结果的准确率和运行的时空效率上都达到了较高的水平。 |
| 性能指标 |
WinDPS系统的开放测试指标为:
有标记依存弧的准确率为75%左右
无标记依存弧的准确率为80%左右
在普通PC(P4 1.4G CPU,256M内存)的条件下,该系统每秒可处理约500个句子。 |
| 应用领域 |
| 可用于自然语言处理、信息检索、机器翻译、信息检索、自动文摘、文本分类等诸多领域。 |
| |