摘要: Scheduler是WebMagic中对url进行管理的组件,它主要有2个功能: 一般使用不需要自定义,WebMagic默认实现了QueueScheduler。 WebMagic内置了几个常用的Scheduler。 所有默认的Scheduler都默认实现了 DuplicateRemover接口,去u 阅读全文
posted @ 2019-09-27 17:08 懒到饿死的猫 阅读(894) 评论(0) 推荐(0) 编辑
摘要: 在实现了processor接口的时候,把抓取的数据通过 发送到自定义的Pipeline中,对数据进行后期处理,如分析,存储等 实现方式:继承Pipeline接口,比如: 经常直接将数据存到mysql,redis等数据库中,数据持久化的工具就不用我说了吧?jdbc,mybatis等 webMagic中 阅读全文
posted @ 2019-09-27 16:18 懒到饿死的猫 阅读(1184) 评论(0) 推荐(0) 编辑
摘要: PageProcessor是WebMagic中最重要的一个,它用来编写爬取的规则,爬什么?怎么爬? 首先PageProcessor是一个接口,具体实现需要集成这个接口,重写它的process 例如: site这个对象必须要有,不然会报错,它封装了爬取的配置如: setTimeOut(1000) 表示 阅读全文
posted @ 2019-09-27 15:54 懒到饿死的猫 阅读(2144) 评论(0) 推荐(0) 编辑
摘要: 现在做爬虫的大部分都在用Python,其实java也可以,这里介绍一款轻量级国产爬虫框架 Webmagic 官方地址:http://webmagic.io/ 个人对于爬虫的理解分为2种,第一种是爬取页面(静态数据),第二种是爬取接口(动态加载的数据) 对于静态的页面数据,关键获取到页面documen 阅读全文
posted @ 2019-09-27 12:07 懒到饿死的猫 阅读(2777) 评论(0) 推荐(0) 编辑
摘要: 上一篇c# 的万能型Json 解析,现在写一篇Java的万能型Json 解析 导入FastJson依赖 使用JSON.parseObject() 比如解析一个User对象 解析Map,List 阅读全文
posted @ 2019-09-27 10:55 懒到饿死的猫 阅读(463) 评论(0) 推荐(0) 编辑
摘要: 需要导入JSON 解析依赖 使用JsonConvert 比如解析List<User> 解析Map结构, C#中类似Map结构的通用类为 Dictionary 阅读全文
posted @ 2019-09-27 10:37 懒到饿死的猫 阅读(874) 评论(0) 推荐(0) 编辑
摘要: 查看端口netstat -ntlp查看防火墙开放端口iptables -L -n查看java进程ps -ef|grep java卸载javarpm -qa | grep java | xargs rpm -e --nodepsiptables 开放端口iptables -A INPUT -p tcp 阅读全文
posted @ 2019-09-27 10:26 懒到饿死的猫 阅读(158) 评论(0) 推荐(0) 编辑
摘要: 有时想要将一些文档资料上传到git ,难道还要用idea?eclipse? 下面通过Git base命令窗口来上床 //克隆远程库到本地桌面git clone http://47.92.171.77/yhood/delProcess.git//进入git库cd delProcess///添加git库 阅读全文
posted @ 2019-09-27 10:19 懒到饿死的猫 阅读(7794) 评论(0) 推荐(0) 编辑
摘要: 由于对用户数据的安全性考虑,在同一时刻不允许两个相同的用户存在(SSM架构下)。 场景,假设 Tom使用了用户1,Joker也是使用了用户1,两人同时对用户1 的相关数据进行了修改,就会造成数据的安全隐患。 思路: 1.定义一个key-value结构的用户栈,将用户名与sessionId绑定,存入用 阅读全文
posted @ 2019-09-26 17:45 懒到饿死的猫 阅读(4190) 评论(0) 推荐(2) 编辑
摘要: 上一篇写了如何使用 Hystrix的dashboard去监控单个应用的访问情况 现在要介绍的是如何去监控整个集群的访问情况,这里要使用到Turbine,一个Netflix的开源项目 它可以将多hystrix.stream的内容聚合为一个数据源供给dashboard展示。 我们先说一下整体的架构: 2 阅读全文
posted @ 2019-09-24 17:26 懒到饿死的猫 阅读(952) 评论(0) 推荐(0) 编辑