2014 年 8月 5 日随笔档案 - jseven

2014年8月5日

摘要：直接代码吧，很清楚：package mahout;import java.io.BufferedInputStream;import java.io.BufferedReader;import java.io.BufferedWriter;import java.io.File;import jav... 阅读全文

posted @ 2014-08-05 15:01 jseven 阅读(101) 评论(0) 推荐(0) 编辑

mahout推荐14-实用化

摘要：这是一个约会网站，首先需要下载http://www.occamslab.com/petricek/data/libimseti-complete.zip：这个里面包含了用户对其他人档案的评分，针对评分那个文件，事先经历了数据的预处理：提出了生成评分个数不到20个的用户，还排除了几乎对每个档案都给出相... 阅读全文

posted @ 2014-08-05 14:26 jseven 阅读(433) 评论(0) 推荐(0) 编辑

hive 多个key需要 group by

摘要：请问下,如果有多个统计，要统计的数据都一样，每个统计只是group by 的key不一样，怎样做，才能让这些统计最快完成？恩，比如有10个统计，每个统计都是读取的同一份数据，但是统计的维度不一样，就是groupby的key不一样你们都是怎么处理的？语句类似这个：： from( selectk1,k... 阅读全文

posted @ 2014-08-05 13:29 jseven 阅读(2310) 评论(0) 推荐(0) 编辑

mahout0.9注意事项SlopeOneRecommender

摘要： 1、今天试验SlopeOne推荐算法，结果没有提示。心想是不是少了jar包，查查不少。通过网络查询定位此类所在的位置为：org.apache.mahout.cf.taste.impl.recommender.slopeone.包下面，所以去查看jar包，发现没有。查看src包也没有这个类的源码，之后... 阅读全文

posted @ 2014-08-05 13:04 jseven 阅读(1184) 评论(0) 推荐(0) 编辑

mahout推荐13-基于物品的推荐

摘要：基于物品的推荐，是以物品的相似度为基础的。在mahout中意味着使用ItemSimilarity实现相似性度量，而不是UserSimilarity。他们分别是通过相似的用户和相似的物品。基于物品的：了解用户的喜好，并寻找相似的物品基于用户的：寻找相似的用户，并了解他们喜好什么。如果物品数比用户数少很... 阅读全文

posted @ 2014-08-05 12:28 jseven 阅读(1717) 评论(0) 推荐(0) 编辑

mahout推荐12-相似度方法汇总

摘要：将各个计算用户相似度的方法弄过来了，可以参考下。实际运行代码数据文件 intro.csv内容: 直接复制就行了1,101,5.01,102,3.01,103,2.52,101,2.02,102,2.52,103,5.02,104,2.03,101,2.53,104,4.03,105,4.53,107... 阅读全文

posted @ 2014-08-05 11:50 jseven 阅读(894) 评论(0) 推荐(0) 编辑

连续时间查询问题-查询一个用户连续登陆天数超过N天的用户

摘要：问题：比如查询一个用户连续登陆天数超过7天的用户，或者查询连续在7天的某个时间段登陆的用户。网上查询sql的语句的用法，对于hive来说也可以试试，查询词"SQL 连续天数查询" 如果使用hadoop如何解决？？思路（以连续N天登陆为例）： 1、计算出每天登陆的用户集合 1、使... 阅读全文

posted @ 2014-08-05 09:42 jseven 阅读(1595) 评论(0) 推荐(0) 编辑

公告