Strava
上一页 1 2 3 4 5 6 7 8 9 ··· 16 下一页
摘要: 一.问题 charles不知为何疯狂报错 Automatic macOS Proxy Configuration Failed to install helper: The operation couldn't be completed. (CFErrorDomainLaunchd error 9. 阅读全文
posted @ 2020-11-02 11:06 cheflone 阅读(752) 评论(2) 推荐(0) 编辑
摘要: 一.常见基于身份识别进行反爬 1通过headers字段来反爬 headers中有很多字段, 这些字段都有可能会被对方服务器拿过来进行判断是否为爬虫 1.1通过headers中的User-Agent字段来反爬 ●反爬原理:爬虫默认情况下没有User-Agent, 而是使用模块默认设置 ●解决方法:请求 阅读全文
posted @ 2020-11-01 19:36 cheflone 阅读(108) 评论(0) 推荐(0) 编辑
摘要: 1.报错: FakeUserAgentError('Maximum amount of retries reached!') 1 # 禁用服务器缓存 2 ua = UserAgent(use_cache_server=False) 3 4 # 无效,不缓存数据: 5 ua = UserAgent(c 阅读全文
posted @ 2020-10-30 22:25 cheflone 阅读(284) 评论(0) 推荐(0) 编辑
摘要: 1.具体报错 pytesseract.pytesseract.TesseractError: (1, 'Error opening data file /usr/local/share/tessdata/chi_sim.traineddata Please make sure the TESSDAT 阅读全文
posted @ 2020-10-29 10:52 cheflone 阅读(1372) 评论(0) 推荐(0) 编辑
摘要: 进程(process)和线程(thread)是操作系统的基本概念,但是它们比较抽象,不容易掌握。 最近,我读到一篇材料,发现有一个很好的类比,可以把它们解释地清晰易懂。 1. 计算机的核心是CPU,它承担了所有的计算任务。它就像一座工厂,时刻在运行。 2. 假定工厂的电力有限,一次只能供给一个车间使 阅读全文
posted @ 2020-10-27 09:39 cheflone 阅读(52) 评论(0) 推荐(0) 编辑
摘要: 1.环境准备 Crontab 1 apt-get install cron #服务器环境下默认安装有 2.使用 1 crontab -e #进入编辑页面(第一次会让你选择编辑器) 1 crontab -l #查看当前的定时任务 2.1 编辑 分 小时 日 月 星期 命令 0-59 0-23 1-31 阅读全文
posted @ 2020-10-26 10:27 cheflone 阅读(276) 评论(0) 推荐(0) 编辑
摘要: 用原有的镜像下载非常慢 => 🚶 替换源,更新速度变成 => 🚀 第一步:更换仓库源 homebrew 默认的源是在 github 上面,每次更新速度都会非常慢。所以我们更换成国内的镜像源。就会快很多了。 1 cd "$(brew --repo)" 2 git remote set-url or 阅读全文
posted @ 2020-10-24 08:42 cheflone 阅读(274) 评论(0) 推荐(0) 编辑
摘要: 在这之前一定要好好理解一下接口的含义,我觉得在这一类中接口理解成规则很恰当。 http接口:基于HTTP协议的开发接口.这个并不能排除没有使用其他的协议。 api接口:API(Application Programming Interface)应用程序编程接口,应用也包括网络应用程序,就像api文档 阅读全文
posted @ 2020-10-21 17:08 cheflone 阅读(74) 评论(0) 推荐(0) 编辑
摘要: 创建分布式爬虫 先创建普通爬虫 然后根据前者改造 1.1 限速可以参考我这篇博文 1.2 1.3 注意:lpush的spidername要和redis_key一致,不然spider接受不到起始URL 阅读全文
posted @ 2020-10-18 11:50 cheflone 阅读(75) 评论(0) 推荐(0) 编辑
摘要: 利用redis和scarpy配合可以实现增量式爬虫,其中scrapy_redis尤为重要 1. DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter" 指纹去重:其功能就是为每一个request返回一个唯一标示本身的指纹,判断和记录是否请 阅读全文
posted @ 2020-10-13 21:44 cheflone 阅读(123) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 9 ··· 16 下一页