Welcome to EliteQing's Blog

摘要: crawler4j是用Java实现的开源网络爬虫。提供了简单易用的接口,可以在几分钟内创建一个多线程网络爬虫。下面实例结合jsoup解析网页,javacsv存储采集数据;采集自如ziroom租房网(http://sz.ziroom.com/z/nl/)的出租房信息。 所有的过程仅需两步完成: 第一步 阅读全文
posted @ 2016-08-20 19:08 EliteQing 阅读(1429) 评论(0) 推荐(0) 编辑
摘要: 构建 这里搜集了用来构建应用程序的工具。 Apache Maven:Maven使用声明进行构建并进行依赖管理,偏向于使用约定而不是配置进行构建。Maven优于Apache Ant。后者采用了一种过程化的方式进行配置,所以维护起来相当困难。 Gradle:Gradle采用增量构建。Gradle通过Gr 阅读全文
posted @ 2016-08-20 18:25 EliteQing 阅读(3245) 评论(13) 推荐(37) 编辑
摘要: crawler4j是用Java实现的开源网络爬虫。提供了简单易用的接口,可以在几分钟内创建一个多线程网络爬虫。下面实例结合jsoup,采集搜狐新闻网(http://news.sohu.com/)新闻标题信息。 所有的过程仅需两步完成: 第一步:建立采集程序核心部分 第二步:建立采集程序控制部分 采集 阅读全文
posted @ 2016-08-20 12:42 EliteQing 阅读(777) 评论(0) 推荐(1) 编辑