第三周

流量分析

  • pv:type字段为1的数据个数。
  • click:type字段为2的url个数。
  • uv:type字段为1的数据对permanent_id去重后的个数。
  • 搜索:type字段为5且act字段为view。
  • 搜索无结果:是搜索,且pos字段的最后一个值为n。
  • 点击:type字段为5且act字段为click、buy 、favor、preorder、pdnothing、detail。
  • 搜索无点击:当前数据为搜索,且下个数据不是点击。

用HashSet去重计算uv

1 Set pid = new HashSet();
2 pid.add(new String(""));
3 pid.size();

当MapReduce主键需要变化时

  • 注册多个job,使用多对MapReduce。

java的正则限制

  • 基本上就是1.6版本不支持在零宽断言中有复杂的匹配条件。
  • 链接

用正则表达式匹配汉字

  • /w只能匹配字母数字与下划线,无法匹配汉字
  • 硬要匹配汉字则需要知道汉字的编码方式
  • 具体方法
  • 可以采取先用spile粗略切分,再用substring截取的方法,绕过复杂正则。
posted @ 2012-08-05 16:26  喵小雨  阅读(144)  评论(0编辑  收藏  举报