随笔分类 -  Webmagic

webmagic 爬取网页所有文章的标题时间作者和内容
摘要:package com.ij34; import us.codecraft.webmagic.Site; import us.codecraft.webmagic.Page; import us.codecraft.webmagic.Spider; import us.codecraft.webmagic.pipeline.FilePipeline; import us.codecraft.w... 阅读全文

posted @ 2018-03-25 19:04 Honey_Badger 阅读(562) 评论(0) 推荐(0) 编辑

webmagic 基本的方法
摘要:WebMagic的结构分为Downloader、PageProcessor、Scheduler、Pipeline四大组件,并由Spider将它们彼此组织起来。这四大组件对应爬虫生命周期中的下载、处理、管理和持久化等功能 PageProcessor 需要自己写 Scheduler 除非项目有一些特殊的 阅读全文

posted @ 2018-03-25 19:02 Honey_Badger 阅读(966) 评论(0) 推荐(0) 编辑

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5
github
点击右上角即可分享
微信分享提示