上一页 1 2 3 4 5 6 ··· 16 下一页
摘要: 1、组件: 元存储(Metastore )-存储“系统目录以及关于表、列、分区等的元数据”的组件。 驱动(Driver )- 控制 HiveQL 生命周期的组件,当 HiveQL 查询穿过 Hive时。该驱动管理着会话句柄以及任何会话的统计。 查... 阅读全文
posted @ 2014-08-07 09:24 jseven 阅读(308) 评论(0) 推荐(0) 编辑
摘要: 基础概念: relation bag tuple field data 关系(relation) = 包(bag) 一个包是一个元组(tuple)的集合,在pig中用{}扩起来表示一个包 一个元组(tuple)是若干个字段的有序集合(order set),在pig的数据结构中,用()扩起来... 阅读全文
posted @ 2014-08-07 09:22 jseven 阅读(1000) 评论(0) 推荐(0) 编辑
摘要: 详情可以参考《Mahout实战》的第六章代码:package mahout.wiki;import java.io.IOException;import java.util.ArrayList;import java.util.Collections;import java.util.Iterato... 阅读全文
posted @ 2014-08-06 16:07 jseven 阅读(640) 评论(0) 推荐(0) 编辑
摘要: 推荐引擎简介推荐引擎利用特殊的信息过滤(IF,Information Filtering)技术,将不同的内容(例如电影、音乐、书籍、新闻、图片、网页等)推荐给可能感兴趣的用户。通常情况下,推荐引擎的实现是通过将用户 的个人喜好与特定的参考特征进行比较,并试图预测用户对一些未评分项目的喜好程度。参考特... 阅读全文
posted @ 2014-08-06 15:49 jseven 阅读(219) 评论(0) 推荐(0) 编辑
摘要: 这是一个约会网站,首先需要下载http://www.occamslab.com/petricek/data/libimseti-complete.zip:这个里面包含了用户对其他人档案的评分,针对评分那个文件,事先经历了数据的预处理:提出了生成评分个数不到20个的用户,还排除了几乎对每个档案都给出相... 阅读全文
posted @ 2014-08-05 14:26 jseven 阅读(433) 评论(0) 推荐(0) 编辑
摘要: 请问下,如果有多个统计,要统计的数据都一样,每个统计只是group by 的key不一样,怎样做,才能让这些统计最快完成? 恩,比如有10个统计,每个统计都是读取的同一份数据,但是统计的维度不一样,就是groupby的key不一样你们都是怎么处理的?语句类似这个:: from( selectk1,k... 阅读全文
posted @ 2014-08-05 13:29 jseven 阅读(2310) 评论(0) 推荐(0) 编辑
摘要: 1、今天试验SlopeOne推荐算法,结果没有提示。心想是不是少了jar包,查查不少。通过网络查询定位此类所在的位置为:org.apache.mahout.cf.taste.impl.recommender.slopeone.包下面,所以去查看jar包,发现没有。查看src包也没有这个类的源码,之后... 阅读全文
posted @ 2014-08-05 13:04 jseven 阅读(1184) 评论(0) 推荐(0) 编辑
摘要: 基于物品的推荐,是以物品的相似度为基础的。在mahout中意味着使用ItemSimilarity实现相似性度量,而不是UserSimilarity。他们分别是通过相似的用户和相似的物品。基于物品的:了解用户的喜好,并寻找相似的物品基于用户的:寻找相似的用户,并了解他们喜好什么。如果物品数比用户数少很... 阅读全文
posted @ 2014-08-05 12:28 jseven 阅读(1717) 评论(0) 推荐(0) 编辑
摘要: 将各个计算用户相似度的方法弄过来了,可以参考下。实际运行代码数据文件 intro.csv内容: 直接复制就行了1,101,5.01,102,3.01,103,2.52,101,2.02,102,2.52,103,5.02,104,2.03,101,2.53,104,4.03,105,4.53,107... 阅读全文
posted @ 2014-08-05 11:50 jseven 阅读(894) 评论(0) 推荐(0) 编辑
摘要: 问题:比如查询一个用户连续登陆天数超过7天的用户,或者查询连续在7天的某个时间段登陆的用户。 网上查询sql的语句的用法,对于hive来说也可以试试,查询词"SQL 连续天数查询" 如果使用hadoop如何解决?? 思路(以连续N天登陆为例): 1、计算出每天登陆的用户集合 1、使... 阅读全文
posted @ 2014-08-05 09:42 jseven 阅读(1595) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 ··· 16 下一页