摘要: 1.项目架构 2.详细技术点 1.解析,(依赖注入) 2,使用queue队列实现循环抓取 3.实现优先级队列并提取接口 4.使用log4j实现配置检查及日志打印 5.实现多线程爬虫并提取接口 6.实现url调度器 7.使用queue队列实现url随机榨取 8.使用redis队列实现url 随机抓取 10.使用httpclient 实现模拟登录 11.使用curator 监控爬虫的生命周期 1... 阅读全文
posted @ 2015-09-19 21:35 农民阿姨 阅读(3676) 评论(0) 推荐(0) 编辑
摘要: 一、常用命令:(hbase shell 进入终端) 1.创建表: create 'users','user_id','address','info' 表users,有三个列族user_id,address,info 2.列出全部表 list 3.得到标的信息 describe‘users’ 4.删除表 disable 'users' drop 'users‘ 5.清空表 trunca... 阅读全文
posted @ 2015-09-19 11:02 农民阿姨 阅读(490) 评论(0) 推荐(0) 编辑