2020年3月1日

用kettle做爬虫(一)get请求爬取日期

摘要: 背景 接到一个任务,是爬取广东省采购网2019年全年的采购公告、合同信息、结果公告等信息。通过python代码的编写已经完成了这个任务。但由于采购网的服务器不是太稳定等因素,因此,相当一部分的数据行没有爬取到“公布日期”。 幸好,我的数据行里面已经存有每个数据的网址来历,只要直接get,就能获取该网 阅读全文

posted @ 2020-03-01 09:38 蛋挞王子 阅读(2512) 评论(0) 推荐(0) 编辑

导航