01 2011 档案

在字典中却掉影响召回的长词

摘要：一个小应用，show下代码，为了推荐下我非常喜欢的glog,gflag:)感谢google 它们让我的生活更轻松：）另外读取数据库用otl相当方便,我用otl封装了下写了一个DBReader,这样处理数据库基本就和处理文本一样了完全相同的接口，完全屏蔽了数据库的操作方便了很多。 /** * ==================================================... 阅读全文

posted @ 2011-01-10 12:02 阁子阅读(555) 评论(0) 推荐(0)

ngram模型中文语料实验step by step(1)-分词与统计

摘要：ngram模型是统计语言的最基本的模型了，这里将给出用中文语料做实验建立ngram模型的个人总结，主要参考sun拼音2.0的代码以及有点意思拼音输入法，会参考srilmstevejian.cublog.cn。我会尽量逐步完成所有的实验总结。分词与统计对于中文语料和英文不同需要我们先进行分词，当然如果是切分好空格隔开的语料就简单许多。假设是普通的语料，sun拼音的做法是采用正向最大匹配分词，并且去掉可能有歧义的部分，当然这些都是首先依赖于词典。利用词典文本建立一个存储字典中词的索引结构。可以选择hash map,map,trie树等结构，这里选择double array trie作为索引结阅读全文

posted @ 2011-01-02 13:21 阁子阅读(5247) 评论(0) 推荐(0)

游园惊梦(https://github.com/chenghuige)

01 2011 档案

公告