摘要: Referer是浏览器在页面跳转时带入的HTTP头,指示用户上一个页面的URL, 一般来说,网站90%以上的流量应该带有Referer头, 在一些常见的反爬策略中, 大量的不带Referer头的源IP请求会触发"要求输入验证码"策略。 User-Agent 是一个古老的HTTP头,指示用户浏览器的版 阅读全文
posted @ 2018-06-04 16:26 公众号python学习开发 阅读(309) 评论(0) 推荐(0) 编辑
摘要: import requests import re import os from fontTools.ttLib import TTFont class MaoYan(object): def __init__(self): self.url = 'http://maoyan.com/films/1 阅读全文
posted @ 2018-06-04 15:39 公众号python学习开发 阅读(884) 评论(0) 推荐(0) 编辑
摘要: web_font的一些基本原理 https://blog.csdn.net/fdipzone/article/details/68166388 实例1 猫眼电影 http://www.cnblogs.com/my8100/p/js_maoyandianying.html 实战反爬虫解析-字体替换(天 阅读全文
posted @ 2018-06-04 15:32 公众号python学习开发 阅读(510) 评论(0) 推荐(0) 编辑
摘要: 替换函数后面的表达式,一般是去掉eval之后的 点我解密 阅读全文
posted @ 2018-06-04 15:20 公众号python学习开发 阅读(3071) 评论(0) 推荐(0) 编辑
摘要: 前言: “去重”是日常工作中会经常用到的一项技能,在爬虫领域更是常用,并且规模一般都比较大。去重需要考虑两个点:去重的数据量、去重速度。为了保持较快的去重速度,一般选择在内存中进行去重。 数据量不大时,可以直接放在内存里面进行去重,例如python可以使用set()进行去重。 当去重数据需要持久化时 阅读全文
posted @ 2018-06-04 11:38 公众号python学习开发 阅读(369) 评论(0) 推荐(0) 编辑