摘要: QQ空间说说抓取难度比较大,花了一个星期才研究清楚! 代码请移步到GitHub GitHub地址:https://github.com/20100507/Qzone 【没有加入多线程,希望你可以参与进来加入多线程不过 单个QQ请求频率不可以太高 过多的线程就需要 更多的QQ小号轮流登录】 不要忘了点 阅读全文
posted @ 2017-07-19 17:24 回眸,境界 阅读(4776) 评论(24) 推荐(5) 编辑
摘要: yarn 的执行流程 Spark wordCount 执行流程 mr 的shuffle 过程 阅读全文
posted @ 2017-07-19 15:19 回眸,境界 阅读(690) 评论(0) 推荐(0) 编辑
摘要: 这几天在写索引,想到一些有意思的TIPS,希望大家有收获。 一、一些常见的SQL实践 (1)负向条件查询不能使用索引 select * from order where status!=0 and stauts!=1 select * from order where status!=0 and s 阅读全文
posted @ 2017-07-19 15:04 回眸,境界 阅读(286) 评论(0) 推荐(0) 编辑