2014年9月10日

最短路径BellmanFord , Dijsktra

摘要: 最短路径算法也是常用的图算法,在网上看到了一份c的代码,写的很清楚,今天有空给写成java的了,就当练手了。另,算法导论362页详细介绍了Bellman-Ford算法,本来打算再写个Dijsktra算法的,可是今天比较赖,就写这一个算法吧。package path;import java.util.... 阅读全文

posted @ 2014-09-10 14:08 BruceLv 阅读(267) 评论(0) 推荐(0) 编辑

minhash

摘要: minhash是一种基于jaccard index 相似度的算法。属于LSH(Location Sensitive Hash)家族中的一员。 jaccard index :有两个集合A={a , b , c , d , e } ,B={a , e , f , g},根据jaccard index 来 阅读全文

posted @ 2014-09-10 11:23 BruceLv 阅读(1576) 评论(0) 推荐(0) 编辑

2014年7月17日

eclipse 中使用tomcat

摘要: 最近写了个商品搜索模块,要做成tomcat服务,以前只关注算法,从来没有使用过tomcat,这次上网上查了些资料还搞定(小公司真是锻炼人啊,以前我从来不考虑这些服务问题)。1、tomcat 环境的搭建 直接从网上下载tomcat压缩包,解压即可。2、eclipse 与tomcat的连接 a)直接... 阅读全文

posted @ 2014-07-17 10:44 BruceLv 阅读(666) 评论(0) 推荐(0) 编辑

2014年5月7日

http 服务

摘要: 今天把一个功能模块做成了http服务,这还是第一次写http服务,纪录下来。 1 package com.chuntent.itemsearch; 2 3 import java.io.BufferedReader; 4 import java.io.IOException; 5 imp... 阅读全文

posted @ 2014-05-07 16:56 BruceLv 阅读(806) 评论(0) 推荐(0) 编辑

MongoDB小记

摘要: mongodb的一个简单使用。package com.chuntent.mongo;import java.util.Map;import java.util.Map.Entry;import com.mongodb.BasicDBObject;import com.mongodb.DB;impor... 阅读全文

posted @ 2014-05-07 16:53 BruceLv 阅读(301) 评论(0) 推荐(0) 编辑

2014年4月28日

java post 请求

摘要: 新公司的分词为post调用方式,以前还没用过post,这次上网查了下,比较简单,但还是写篇博客记录下,代码为网上找的,非原创。package com.chuntent.tool;import java.io.BufferedReader;import java.io.IOException;impo... 阅读全文

posted @ 2014-04-28 15:23 BruceLv 阅读(406) 评论(0) 推荐(0) 编辑

2014年4月16日

hadoop拾遗(五)---- mapreduce 输出到多个文件 / 文件夹

摘要: 今天要把HBase中的部分数据转移到HDFS上,想根据时间戳来自动输出到以时间戳来命名的每个文件夹下。虽然以前也做过相似工作,但有些细节还是忘记了,所以这次写个随笔记录一下。package com.chuntent.hadoop;import java.io.IOException;import o... 阅读全文

posted @ 2014-04-16 13:42 BruceLv 阅读(899) 评论(0) 推荐(0) 编辑

2014年2月12日

weka数据挖掘拾遗(二)---- 特征选择(IG、chi-square)

摘要: 一、说明 IG是information gain 的缩写,中文名称是信息增益,是选择特征的一个很有效的方法(特别是在使用svm分类时)。这里不做详细介绍,有兴趣的可以googling一下。 chi-square 是一个常用特征筛选方法,在种子词扩展那篇文章中,有详细说明,这里不再赘述。二、weka中的使用方法 1、特征筛选代码 1 package com.lvxinjian.alg.models.feature; 2 3 import java.nio.charset.Charset; 4 import java.util.ArrayList; 5 6 import weka.att... 阅读全文

posted @ 2014-02-12 13:20 BruceLv 阅读(3346) 评论(1) 推荐(0) 编辑

weka数据挖掘拾遗(一)---- 生成Arff格式文件

摘要: 一、什么是arff格式文件 1、arff是Attribute-Relation File Format缩写,从英文字面也能大概看出什么意思。它是weka数据挖掘开源程序使用的一种文件模式。由于weka是个很出色的数据挖掘开源项目,所以使用的比较广,这也无形中推广了它的数据存储格式。 2、下面是weka自带的一个arff文件例子(weather.arff) 1 @relation weather 2 3 @attribute outlook {sunny, overcast, rainy} 4 @attribute temperature real 5 @attribute humidit... 阅读全文

posted @ 2014-02-12 10:49 BruceLv 阅读(9140) 评论(4) 推荐(1) 编辑

2014年2月11日

基于SimHash的微博去重

摘要: 一、需求:对微博数据进行去重,数据量比较小,几十万条左右。二、解决方案 1、采用SimHash的指纹信息去重方法。三、实现方案 1、对每一条微博使用tf-idf与特征词 2、使用每条微博的特征词,通过SimHash方法生成信息指纹。 3、对生成的信息指纹统计计算海明距离,距离小于等于1判为相... 阅读全文

posted @ 2014-02-11 17:04 BruceLv 阅读(1596) 评论(0) 推荐(0) 编辑

导航