摘要: 排序1. 直接插入排序原理:将当前无序区a[i...n-1]的记录一个一个插入到有序区a[0....i-1]合适位置; 1 void insert_sort(int a[], int n) 2 { 3 int j; 4 for(int i=1;i=0&&temp0;h=h/2) 4 ... 阅读全文
posted @ 2014-12-25 18:25 kenneth shu 阅读(454) 评论(0) 推荐(0) 编辑
 
摘要: 最近参与一个小project,需要编写一个针对英文单词的stem 算法。1. 最为常见的stem 算法 就是The English (Porter2) stemming algorithmhttp://snowball.tartarus.org/algorithms/english/stemmer.... 阅读全文
posted @ 2014-07-10 13:29 kenneth shu 阅读(373) 评论(0) 推荐(0) 编辑
摘要: 相关词推荐问题就是一个计算任意两个词相似度的问题。1. 制作爬虫,获取百科页面,首批语料有10万多条记录。2. 解析百科页面,利用lucene 制作索引index(字段:title,id,summary)。3.相关词推荐算法我们最终要获取任意两个词的相似度Sim(Wi,Wj)。基本思想:每条记录有 ... 阅读全文
posted @ 2014-07-10 13:28 kenneth shu 阅读(950) 评论(0) 推荐(0) 编辑
  2014年7月9日
摘要: 1. 下载mahout-distribution-0.5.tar.gz 并解压;2.配置环境变量: /etc/profileexport MAHOUT_HOME=/home/mahout/export PATH=$MAHOUT_HOME/bin:$PATH3. 启动hadoopstart-all.s... 阅读全文
posted @ 2014-07-09 16:55 kenneth shu 阅读(145) 评论(0) 推荐(0) 编辑