第三周
流量分析
- pv:type字段为1的数据个数。
- click:type字段为2的url个数。
- uv:type字段为1的数据对permanent_id去重后的个数。
- 搜索:type字段为5且act字段为view。
- 搜索无结果:是搜索,且pos字段的最后一个值为n。
- 点击:type字段为5且act字段为click、buy 、favor、preorder、pdnothing、detail。
- 搜索无点击:当前数据为搜索,且下个数据不是点击。
用HashSet去重计算uv
1 Set pid = new HashSet(); 2 pid.add(new String("")); 3 pid.size();
当MapReduce主键需要变化时
- 注册多个job,使用多对MapReduce。
java的正则限制
- 基本上就是1.6版本不支持在零宽断言中有复杂的匹配条件。
- 链接
用正则表达式匹配汉字
- /w只能匹配字母数字与下划线,无法匹配汉字
- 硬要匹配汉字则需要知道汉字的编码方式
- 具体方法
- 可以采取先用spile粗略切分,再用substring截取的方法,绕过复杂正则。