中文分词的思考

今天工作中碰到分词问题的分析。问题是“上海人”分词为“上海”和“人”两个最小单元,还是以“上海人”为最小单元?

 

分词的原文如下:

 

“3月23日,早餐后前往豪尔赫机场,搭乘9点15分的阿航AR1874次航班波音737客机,3个多小时后,中午12点25分到达了埃尔卡拉法特机场,今天我们将要游览心仪已久的莫雷诺大冰川。地接导游王强是个上海人,他将陪伴着我们走完在阿根廷境内的所有游程。”

 

由此,引出一个话题,搜索是基于文本的搜索还是基于信息的搜索。

 

基于文本的搜索就是,对众多文章进行文本的拆分,拆分后的文本建立索引,在用户进行搜索的时候,将用户输入的文本进行进行拆分,并将这些拆分后的文本在索引中匹配。

 

基于文本搜索的典型例子就是最早期的二元分词以及在此之上建立的索引,二元分词的问题在于,搜索的结果中将会有很多无意义的“词”出现,这极大的干扰了搜索的准确性。

 

引入词典进行分词的搜索。词典中的词都是有意义的,在中文文章中,这些有意义的词不应该被拆分,这就引出一个问题,这个有意义取决于什么?我的理解是这些不可拆分的有意义单词,代表了一个最小的信息单元。比如“苹果”这个名词代表一个东西,这些“有意义”的词都对应到现实中的某个具体事物或者概念。我个人认为,这种使用词典分词的搜索就是简单的信息搜索,而现在大部分的搜索引擎采用的是文本和信息搜索的结合。

 

基于信息的搜索就是,对众多文章所记录的内容进行最小信息的拆分,并对这些信息进行索引。在用户进行搜索的时候,获取用户提供的搜索信息,并使用信息在信息索引中匹配。

 

搜索中的信息。就如上面对引入词典搜索的说明,信息搜索要定义的是什么是信息,什么是不可拆分的最小信息。比如“中华人民共和国”在这个单词中包含哪些信息,指代了现实中的哪些事物和概念?“中华”是否为对应一个事物?“中华人民共和国”是否对应一个事物?在检索中,使用“中华”和使用“中华人民共和国”是否搜索所指意图不同。

 

中英文的在“词”上的区别导致搜索的差别。英文的一个单词代表的就是一个现实中的一个事物或概念,因此文本检索和信息检索极大的重合。但是,中文的文章是字的组合构成,不同的字构成了不同信息,在中文模式下,信息和文本检索就出现了明显的差别。在英文中“china”和“chinese”是两个不同词也代表不同的信息,而在中文“中国”和“中国人”是不同的意思,但是在分词上却存在了是否分为“中国”和“人”的问题。

 

召回率和精度的问题。在搜索中召回率也叫查全率,这是检索的重要概念。基于文本的检索和基于信息的检索都存在该问题,这里的问题在于,信息和文本混合搜索模式下,会有什么样的现象发生。

 

一个很特殊的场景,比如在bbs论坛中,有人只记得某几个字,可能是有意义的,也可能是无意义的。这时,搜索就是纯粹的字符串匹配的问题。

 

通过这个场景,可以了解,在不同的环境下,编写“搜索”代码将会有不同的侧重点。

 

所谓的搜索,在这里包括文字搜索和信息搜索两个方面。 我们输入的是文字,期望的是准确的信息。这就引出一个问题,文字和信息的关系?

 

呵呵,提供一个中文分词的思路。

posted @ 2013-06-24 17:57  惡盈好謙  阅读(282)  评论(0编辑  收藏  举报