喵小雨

2012年8月5日

摘要：流量分析pv：type字段为1的数据个数。click：type字段为2的url个数。uv：type字段为1的数据对permanent_id去重后的个数。搜索：type字段为5且act字段为view。搜索无结果：是搜索，且pos字段的最后一个值为n。点击：type字段为5且act字段为click、buy 、favor、preorder、pdnothing、detail。搜索无点击：当前数据为搜索，且下个数据不是点击。用HashSet去重计算uv1 Set pid = new HashSet();2 pid.add(new String(""));3 pid.size();当M 阅读全文

posted @ 2012-08-05 16:26 喵小雨阅读(146) 评论(0) 推荐(0)

2012年7月29日

第二周

摘要： MapReduce的整个过程分为map和reduce两个阶段，通俗的说就是map（映射）用来准备需要处理的数据，reduce（归纳）用来实际处理数据。当然，另外还需要一些用来调度作业的代码。mapmapper接口是一个泛型接口，其中有四个参数。前两个参数是输入的一对键与值，后两个参数是输出的一对键与值。其中输入键是一个长整数偏移量（类型为LongWritable），输入值是一行文本；输出键与值类型由开发者自行定义。比如类 public static class Map extends Mapper<LongWritable, Text, Text, Text>其中的map方法定义为阅读全文

posted @ 2012-07-29 15:53 喵小雨阅读(786) 评论(0) 推荐(0)

2012年7月25日

第一周

摘要：一头牛拉不动车的时候，我们用两头牛一起拉，而不是养一头更大的牛。——HadoopHadoop：作为关系数据库管理系统的一种补充，它以批处理的方式对数据集进行分析，适合于需要分析整个数据集的问题。背景：数据量巨大——需要大容量的数据库进行存储和处理。硬盘传输速率的增长慢于硬盘容量的增长——需要多个磁盘并行处理。硬盘寻址时间的增长慢于硬盘传输速率的增长——在数据库中加上更多磁盘来做大规模分析是不明智的。与传统的关系数据库相比：可以处理的数据大小为PB级。vs GB更适合一次大量更新后多次读入。vs 多次读写，持续更新如果要进行扩展，复杂度的增长是线性的。vs 非线性集成度低，逻辑较不复杂。vs集成阅读全文

posted @ 2012-07-25 14:34 喵小雨阅读(183) 评论(0) 推荐(0)

寻找内心的宁静

公告