随笔分类 - 爬虫
摘要:提供两种定时任务的方式 1.BlockingScheduler from apscheduler.schedulers.blocking import BlockingScheduler sched = BlockingScheduler() #每隔300秒执行一次任务 sched.add_job(
阅读全文
摘要:爬虫程序会遇到各色各样的验证码,整理一下解决方法。 1.使用均值哈希算法进行图像识别 原理是根据像素平均值对比,来得到一串01010001这样的字符串,通过比较相同位置上是否相同。 统计出来的数量作为相似度凭据。 适用于不规则,难以识别文字或字母时的图像对比,适用面不广,但思路可以借鉴。 代码如下:
阅读全文
摘要:写了一个GK2A卫星数据爬取的程序,本身不难,记录下小知识。 根据URL下载文件,有些需要cookie,大文件下载防止文件损坏 headers = { "Content-Type": ContentType, "User-Agent": UA, "Cookie": cookie } response
阅读全文