感悟
今天看到微软亚洲研究院的分词软件。http://research.microsoft.com/en-us/downloads/7a2bb7ee-35e6-40d7-a3f1-0b743a56b424/default.aspx。
实验了一下:
王总和小丽结婚了。
长春市长春药店。
李建平等领导参加了会议。
工信处女部长。
欧阳蓉蓉不喜欢慕容复,慕容复只想着杀了司马迁。
结果:
王/总/和/小/丽/结婚/了/。/
[L 长春市]/[L 长春]/药店/。/
[P 李建平]/等/领导/参加/了/会议/。/
[O 工信处]/女/部长/。/
[P 欧阳蓉]/蓉/不/喜欢/慕容/复/,/慕容/复/只/想/着/杀/了/司马迁/。/
效果一般了。ICTCLAS能分出:王总/和/小丽/结婚/了/。/ 和 慕容复。
“慕容复”和“小丽”也许是词典的缘故。但是王总ICTCLAS也分出来了。
对于msrseg的论文,说的很高大上很全面。
那么我想这个结果的缘故是不管什么方法,只要认真做,注意细节,都会出不错的效果的。