摘要: 后来在用JAVA爬取北京信件内容过程中出现好多问题。 我该用python爬取。 这个是我爬取出来的各个信件网址的后缀即(http://www.beijing.gov.cn/hudong/hdjl/com.web.suggest.suggesDetail.flow?originalId=AH20021 阅读全文
posted @ 2020-02-14 21:38 Double晨 阅读(250) 评论(0) 推荐(0) 编辑
摘要: 爬取北京市信件内容: 下载webmagic-0.7-libs.tar.gz压缩包,解压缩。没有压缩包可以加QQ:893225523 通过Filezilla上传到/home/hadoop/下载 sudo tar -zxf ~/下载/webmagic-0.7.3-all.tar.gz -C /data/ 阅读全文
posted @ 2020-02-14 17:24 Double晨 阅读(307) 评论(0) 推荐(0) 编辑