摘要: 流量分析pv:type字段为1的数据个数。click:type字段为2的url个数。uv:type字段为1的数据对permanent_id去重后的个数。搜索:type字段为5且act字段为view。搜索无结果:是搜索,且pos字段的最后一个值为n。点击:type字段为5且act字段为click、buy 、favor、preorder、pdnothing、detail。搜索无点击:当前数据为搜索,且下个数据不是点击。用HashSet去重计算uv1 Set pid = new HashSet();2 pid.add(new String(""));3 pid.size();当M 阅读全文
posted @ 2012-08-05 16:26 喵小雨 阅读(144) 评论(0) 推荐(0) 编辑
摘要: MapReduce的整个过程分为map和reduce两个阶段,通俗的说就是map(映射)用来准备需要处理的数据,reduce(归纳)用来实际处理数据。当然,另外还需要一些用来调度作业的代码。mapmapper接口是一个泛型接口,其中有四个参数。前两个参数是输入的一对键与值,后两个参数是输出的一对键与值。其中输入键是一个长整数偏移量(类型为LongWritable),输入值是一行文本;输出键与值类型由开发者自行定义。比如类 public static class Map extends Mapper<LongWritable, Text, Text, Text>其中的map方法定义为 阅读全文
posted @ 2012-07-29 15:53 喵小雨 阅读(783) 评论(0) 推荐(0) 编辑
摘要: 一头牛拉不动车的时候,我们用两头牛一起拉,而不是养一头更大的牛。——HadoopHadoop:作为关系数据库管理系统的一种补充,它以批处理的方式对数据集进行分析,适合于需要分析整个数据集的问题。背景:数据量巨大——需要大容量的数据库进行存储和处理。硬盘传输速率的增长慢于硬盘容量的增长——需要多个磁盘并行处理。硬盘寻址时间的增长慢于硬盘传输速率的增长——在数据库中加上更多磁盘来做大规模分析是不明智的。与传统的关系数据库相比:可以处理的数据大小为PB级。vs GB更适合一次大量更新后多次读入。vs 多次读写,持续更新如果要进行扩展,复杂度的增长是线性的。vs 非线性集成度低,逻辑较不复杂。vs集成 阅读全文
posted @ 2012-07-25 14:34 喵小雨 阅读(177) 评论(0) 推荐(0) 编辑