摘要: http://itindex.net/detail/37115-java-%E7%A8%8B%E5%BA%8F%E5%91%98-%E5%B7%A5%E5%85%B7文章很详细。 阅读全文
posted @ 2014-07-30 16:16 fbiswt 阅读(118) 评论(0) 推荐(0) 编辑
摘要: 备忘。1、 maven-assembly-plugin jar-with-dependencies com.talkingdata.engineer.util.CombineAppList ... 阅读全文
posted @ 2014-05-09 14:32 fbiswt 阅读(2014) 评论(0) 推荐(0) 编辑
摘要: 1、queue的设置 hadoop2.0支持了queue,在hadoop程序里面进行queue的配置: job.getConfiguration().set("mapred.job.queue.name", "your-queue-name");2、reduce key-value中间的分隔符... 阅读全文
posted @ 2014-04-02 15:46 fbiswt 阅读(904) 评论(0) 推荐(0) 编辑
摘要: 一般来说,为用户画像应该考虑的维度有:性别,年龄,居住地,职业,收入,以上属于人的社会特征;兴趣偏向等属于用户的个性特征。大部分的推荐算法都是挖掘用户的个性化特征对用户进行个性化推荐,比如协同过滤算法。为什么不利用用户的社会特征进行推荐,其原因是因为数据的准确度,覆盖度太小,社会特征属于用户的隐... 阅读全文
posted @ 2014-03-03 17:16 fbiswt 阅读(873) 评论(0) 推荐(1) 编辑
摘要: hadoop 版本儿:hadoop-2.0-cdh4.3.0想做一个hive的命令的schedule,所以必须获取正在运行的job的数量。到网上查了一通,一开始用了JobClient,怎么弄都是Null pointor Exception,非常郁闷,不得已看了代码,发现在jobclient初始化的时候出现了这句话:setConf(conf); String tracker = conf.get("mapred.job.tracker", "local");可是2.0根本没有job tracker...我又看了hadoop的命令的shell文件,发现调用h 阅读全文
posted @ 2013-12-11 19:06 fbiswt 阅读(735) 评论(0) 推荐(0) 编辑
摘要: Azkaban系统是一个数据处理的很好用的工具,可以用来运行hadoop任务,管理hdfs,可以进行schedule任务调度,总体来说功能还是很强大的。研究了一下azkaban,做了以下总结性的东西,希望对用azkaban的人有所帮助。1、Azkaban的安装azkaban需要用到mysql进行数据的存储和交换。azkaban分文两部分,分别是web server和executive server ,webserver 是前台页面的显示,默认的服务器是jetty,安装webserver需要对conf文件下的azkaban.properties文件进行配置,需要指定azkaban的web页面存储 阅读全文
posted @ 2013-09-13 12:15 fbiswt 阅读(1532) 评论(0) 推荐(0) 编辑
摘要: 分类器在数据挖掘中的作用不言而喻,weka中的分类器有很多种类型,但是weka在输出结果中,只输出了一个分类的预测的类型,没有输出分类的得分,有一些不给力。如果想知道得分和其预测的类的话,就得调用weka的API。weka的API还是很方便的,如果我们已经输出了一个模型的话,那么用两句话就能在代码中获取这个模型:ObjectInputStream ob = new ObjectInputStream(new FileInputStream(model)); Classifier classifier = (Classifier) ob.readObject();这样就获取了分类器... 阅读全文
posted @ 2013-09-13 11:51 fbiswt 阅读(709) 评论(0) 推荐(0) 编辑
摘要: 问题描述: hadoop版本:hadoop-2.0.0-cdh4.3.0 在本地环境下能够找到scheme,但是通过maven打包fatjar 后放到其他机器上就出现找不到scheme。 看了代码,发现通过FileSystem.get(conf)初始化的时候,要通过静态加载来实现,其加载类的方法代码如下:private static FileSystem createFileSystem(URI uri, Configuration conf ) throws IOException { Class clazz = conf.getClass("fs." + uri.ge. 阅读全文
posted @ 2013-09-11 14:04 fbiswt 阅读(11411) 评论(1) 推荐(0) 编辑
摘要: export LD_LIBRARY_PATH=/usr/lib/hadoop-0.20-mapreduce/lib/native/Linux-amd64-64 当然不是永久的,重启服务器就得重新弄一次,请google linux加环境变量的方法。网上有说是用java_LABRARY_PATH,不好用。 阅读全文
posted @ 2013-09-10 14:16 fbiswt 阅读(605) 评论(0) 推荐(0) 编辑
摘要: 1、打包fatjar maven-assembly-plugin false jar-with-dependencies make-assembly ... 阅读全文
posted @ 2013-08-27 10:35 fbiswt 阅读(402) 评论(0) 推荐(0) 编辑