摘要:
当面对一些特殊的<key,value>键值对时,要求开发人员继承FileOutputFormat,用于实现一种新的输出格式。同时还需继承RecordWriter,用于实现新输出格式key和value的写入方法。现在我们有某电商数据表cat_group1,包含(分组id,分组名称,分组码,奢侈品标记) 阅读全文
摘要:
当面对一些特殊的<key,value>键值对时,要求开发人员继承FileInputFormat,用于实现一种新的输入格式,同时还需要继承RecordReader,用于实现基于新输入格式Key和Value值的读取方法。假定key是由一个文件名和记录位置组成的键值时,进行自定义输入格式,需实现一个Fil 阅读全文
摘要:
使用ChainMapReduce处理文件,现有某电商一天商品浏览情况数据goods_0,功能为在第一个Mapper里面过滤掉点击量大于600的商品,在第二个Mapper中过滤掉点击量在100~600之间的商品,Reducer里面进行分类汇总并输出,在Reducer后的Mapper里过滤掉商品名长度大 阅读全文
摘要:
现有某电商网站的3张信息数据表,分别为商品库表goods3,商品访问情况表goods_visit3,订单明细表order_items3,goods表记录了商品的状态数据,goods_visit3记录了商品的点击情况,order_items3记录了用户购买的商品的信息数据,它们的表结构及内容如下: 商 阅读全文
摘要:
在电商网站中,用户进入页面浏览商品时会产生访问日志,记录用户对商品的访问情况,现有goods_visit2表,包含(goods_id,click_num)两个字段,数据内容如下: goods_id click_num 1010037 100 1010102 100 1010152 97 101017 阅读全文
摘要:
现有某电商网站两张信息表,分别为订单表orders1和订单明细表order_items1,orders1表记录了用户购买商品的下单日期以及订单编号,order_items1表记录了商品id,订单id以及明细id,它们的表结构以及关系如下图所示 两表的数据内容如下: 订单ID 订单号 用户ID 下单日 阅读全文
摘要:
某电商平台,需要对订单数据进行分析,已知订单数据包括两个文件,分别为订单表orders1和订单明细表order_items1,orders1表记录了用户购买商品的下单数据,order_items1表记录了商品id,订单id以及明细id,它们的表结构以及关系如下图所示: 它们的数据内容是以"\t"键分 阅读全文
摘要:
现有某电商的用户好友数据文件,名为 buyer1,buyer1中包含(buyer_id,friends_id)两个字段,内容是以"\t"分隔,编写MapReduce进行单表连接,查询出用户的间接好友关系。例如:10001的好友是10002,而10002的好友是10005,那么10001和10005就 阅读全文
摘要:
在电商网站上,当我们进入某电商页面里浏览商品时,就会产生用户对商品访问情况的数据 ,名为goods_visit1,goods_visit1中包含(商品id ,点击次数)两个字段,内容以“\t”分割,内容如下: 商品id 点击次数 1010037 100 1010102 100 1010152 97 阅读全文
摘要:
现有某电商关于商品点击情况的数据文件,表名为goods_click,包含两个字段(商品分类,商品点击次数),分隔符“\t”,内容如下: 商品分类 商品点击次数 52127 5 52120 93 52092 93 52132 38 52006 462 52109 28 52109 43 52132 0 阅读全文
摘要:
现有一个某电商网站的数据文件,名为buyer_favorite1,记录了用户收藏的商品以及收藏的日期,文件buyer_favorite1中包含(用户id,商品id,收藏日期)三个字段,数据内容以“,”分割,内容如下: 用户id,商品id,收藏日期 10181,1000481,2010-04-04 1 阅读全文
摘要:
《短码之美》,从书名就可以看出这本书主要讲的是短码编程。 而所谓短码编程,就是从数据结构、算法、运行环境的角度去探索编写尽可能短的源代码,缩短源代码或特意编写成难以理解的代码。这种方式很难说对日常工作和生活没有帮助,但是短码编程的行为和精神却包含了程序员的思维方式和哲学的本质。 短码编程的三要素:数 阅读全文