摘要: 总体架构解析 数据流向 模块划分 各模块解读 总体架构解析: 数据流向 模块划分 数据采集模块解读 数据分析模块解读: 报表管理模块解读 系统管理与监控模块解读 阅读全文
posted @ 2017-08-21 22:29 一寂知千秋 阅读(145) 评论(0) 推荐(0) 编辑
摘要: 难点分析 1.网站采取反爬策略 2.网站模板定期变动 3.网站url抓取失败 4.网站频繁抓取ip被封 1.网站采取反爬策略 》网站默认对方正常访问的方式是浏览器访问而不是代码访问,为了防止对方使用大规模服务器进行爬虫从而导致自身服务器承受过大的压力,通常网站会采取反爬策略 根据这一特性,我们用代码 阅读全文
posted @ 2017-08-21 22:26 一寂知千秋 阅读(2739) 评论(0) 推荐(0) 编辑
摘要: 今天安装storm集群的时候,各个进程也都起来,却发现Storm ui界面下无法观察Storm集群的状态 有很多地方处理不当都会造成这种现象: 1.storm.yaml配置不当 2.防火墙的问题 3.启动顺序的问题 启动nimbus后台运行:bin/storm nimbus < /dev/null 阅读全文
posted @ 2017-08-21 18:53 一寂知千秋 阅读(1412) 评论(0) 推荐(0) 编辑