摘要:
后来在用JAVA爬取北京信件内容过程中出现好多问题。 我该用python爬取。 这个是我爬取出来的各个信件网址的后缀即(http://www.beijing.gov.cn/hudong/hdjl/com.web.suggest.suggesDetail.flow?originalId=AH20021 阅读全文
摘要:
爬取北京市信件内容: 下载webmagic-0.7-libs.tar.gz压缩包,解压缩。没有压缩包可以加QQ:893225523 通过Filezilla上传到/home/hadoop/下载 sudo tar -zxf ~/下载/webmagic-0.7.3-all.tar.gz -C /data/ 阅读全文