公布硕士论文最新进展二(2007.3.19)
我作的论文主要是信息检索用汉语分词算法研究以及实现汉语分词系统。
最近几天主要工作及进展:
浏览大量的期刊论文以及硕博士论文 60%
对自适应汉语分词算法进行相关的改进 80%
分词系统的整体设计 30%
硕士论文撰写 1%
总体进度 20%
近两个星期主要完成自适应分词算法的改进,改进后的效果还是鼓舞人心的:
1)分词的准确率:由于算法结构已框定,只能着重去考虑在此结构下,如何能解决识别未登录词与分词歧义伴生的这对矛盾体,即在能够尽量准确地识别未登录词的同时,避免由此产生的切分歧义;或是由切分歧义造成的错误识别未登录词。
2)分词的速率:由于开发语言为C#,效率上相比较C++吃了不少的亏。但是在算法的很多细节上的改进,还是可以给效率带来飞跃,尤其是在改善词表结构后,速率已基本能达到实用水平(50Kb/s左右)。
3)分词词典的重构:除了对分词速率的提升,对于词典本身的更新维护也至为重要。
4)分词模块的扩展性以及可移植性;(还在进行中)
体会到两点:
1)一个实用的分词模块在分词算法以及整个模块的算法结构的考量上至关重要。
2)很多的基础以及基础实验工作还是必要的,有付出必有回报。
最近几天主要工作及进展:
浏览大量的期刊论文以及硕博士论文 60%
对自适应汉语分词算法进行相关的改进 80%
分词系统的整体设计 30%
硕士论文撰写 1%
总体进度 20%
近两个星期主要完成自适应分词算法的改进,改进后的效果还是鼓舞人心的:
1)分词的准确率:由于算法结构已框定,只能着重去考虑在此结构下,如何能解决识别未登录词与分词歧义伴生的这对矛盾体,即在能够尽量准确地识别未登录词的同时,避免由此产生的切分歧义;或是由切分歧义造成的错误识别未登录词。
2)分词的速率:由于开发语言为C#,效率上相比较C++吃了不少的亏。但是在算法的很多细节上的改进,还是可以给效率带来飞跃,尤其是在改善词表结构后,速率已基本能达到实用水平(50Kb/s左右)。
3)分词词典的重构:除了对分词速率的提升,对于词典本身的更新维护也至为重要。
4)分词模块的扩展性以及可移植性;(还在进行中)
体会到两点:
1)一个实用的分词模块在分词算法以及整个模块的算法结构的考量上至关重要。
2)很多的基础以及基础实验工作还是必要的,有付出必有回报。