摘要:
webmagic学习资料:http://webmagic.io/docs/ 原本爬虫的计划是去扒b站的,结果发现b站是js动态加载的,所以先对豆瓣进行尝试,练一下手. 整个项目核心是DoubanProcessor的这个类,继承了webmagic的PageProcessor 其他是自己实现数据库持久化 阅读全文
摘要:
0.前言 PMD作为开源的静态代码扫描工具有很强的扩展能力,可使用java或xpath定制rule.第一篇从操作上讲解如何定制一个用于扫描xml是否规范的规则.首先我们知道xml格式的文件在java工程里往往用于配置文件,像web的ssm框架里的applicationContext.xml或者是sq 阅读全文
摘要:
0.爬虫逻辑 一句话,对网页进行处理,偷到想要的数据,比如文章标题内容,然后存起来. 核心步骤: 下载页面--处理(从page收集数据)--管理(做后续处理)--储存(持久化到文件或DB) 在webmagic里分为四部分 Downloader、PageProcessor、Scheduler、Pipe 阅读全文
摘要:
对于后台开发者来说,在学习过程中必然接触众多中间件,在自己的虚拟机进行操作甚至搭建cluster是很常见的事情. 我在初学者时摸索出一套快速的克隆虚拟机方法.分享给大家. 产品VMware® Workstation 版本10.0.2 build-1744117 这是我的虚拟机命名,我觉得这样的命名比 阅读全文