2014年7月10日
摘要: 最近参与一个小project,需要编写一个针对英文单词的stem 算法。1. 最为常见的stem 算法 就是The English (Porter2) stemming algorithmhttp://snowball.tartarus.org/algorithms/english/stemmer.... 阅读全文
posted @ 2014-07-10 13:29 kenneth shu 阅读(373) 评论(0) 推荐(0) 编辑
摘要: 相关词推荐问题就是一个计算任意两个词相似度的问题。1. 制作爬虫,获取百科页面,首批语料有10万多条记录。2. 解析百科页面,利用lucene 制作索引index(字段:title,id,summary)。3.相关词推荐算法我们最终要获取任意两个词的相似度Sim(Wi,Wj)。基本思想:每条记录有 ... 阅读全文
posted @ 2014-07-10 13:28 kenneth shu 阅读(950) 评论(0) 推荐(0) 编辑