摘要:
Scheduler是WebMagic中对url进行管理的组件,它主要有2个功能: 一般使用不需要自定义,WebMagic默认实现了QueueScheduler。 WebMagic内置了几个常用的Scheduler。 所有默认的Scheduler都默认实现了 DuplicateRemover接口,去u 阅读全文
摘要:
在实现了processor接口的时候,把抓取的数据通过 发送到自定义的Pipeline中,对数据进行后期处理,如分析,存储等 实现方式:继承Pipeline接口,比如: 经常直接将数据存到mysql,redis等数据库中,数据持久化的工具就不用我说了吧?jdbc,mybatis等 webMagic中 阅读全文
摘要:
PageProcessor是WebMagic中最重要的一个,它用来编写爬取的规则,爬什么?怎么爬? 首先PageProcessor是一个接口,具体实现需要集成这个接口,重写它的process 例如: site这个对象必须要有,不然会报错,它封装了爬取的配置如: setTimeOut(1000) 表示 阅读全文
摘要:
现在做爬虫的大部分都在用Python,其实java也可以,这里介绍一款轻量级国产爬虫框架 Webmagic 官方地址:http://webmagic.io/ 个人对于爬虫的理解分为2种,第一种是爬取页面(静态数据),第二种是爬取接口(动态加载的数据) 对于静态的页面数据,关键获取到页面documen 阅读全文
摘要:
上一篇c# 的万能型Json 解析,现在写一篇Java的万能型Json 解析 导入FastJson依赖 使用JSON.parseObject() 比如解析一个User对象 解析Map,List 阅读全文
摘要:
需要导入JSON 解析依赖 使用JsonConvert 比如解析List<User> 解析Map结构, C#中类似Map结构的通用类为 Dictionary 阅读全文
摘要:
查看端口netstat -ntlp查看防火墙开放端口iptables -L -n查看java进程ps -ef|grep java卸载javarpm -qa | grep java | xargs rpm -e --nodepsiptables 开放端口iptables -A INPUT -p tcp 阅读全文
摘要:
有时想要将一些文档资料上传到git ,难道还要用idea?eclipse? 下面通过Git base命令窗口来上床 //克隆远程库到本地桌面git clone http://47.92.171.77/yhood/delProcess.git//进入git库cd delProcess///添加git库 阅读全文