摘要: 一、反爬机制和应对措施 1、通过Headers 措施:添加User-Agent和Referer 2、基于用户行为 措施:代理IP、延迟爬取 3、动态页面 措施:requests模拟ajax请求,如果请求加密了使用selenium+phantomJS 验证码解决:Tesseract 二、Scrapy运 阅读全文
posted @ 2019-09-07 22:09 尘世中一个迷途小书童 阅读(156) 评论(0) 推荐(0) 编辑
摘要: 一、cookie和session的区别 1、cookie存放在客户浏览器,session存放在服务器 2、cookie不安全,其他人可以分析本地的cookie进行cookie欺骗 3、session会在一定时间内保存在服务器上,访问增多会占用服务器性能 4、单个cookie保存的数据不能超过4K,很 阅读全文
posted @ 2019-09-07 19:34 尘世中一个迷途小书童 阅读(181) 评论(0) 推荐(0) 编辑
摘要: 一、__new__和__init__的区别 1、new是一个静态方法,init是一个实例方法2、new方法会返回一个创建的实例,而init什么都不返回3、只有在new返回一个cls的实例时后面的init才能被调用4、当创建一个新实例时调用new,初始化一个实例时用init 1、new是一个静态方法, 阅读全文
posted @ 2019-09-07 17:32 尘世中一个迷途小书童 阅读(161) 评论(0) 推荐(0) 编辑
摘要: 一、Python内存管理机制 1、引用计数 当一个Python对象被引用时其引用计数增加1,当其不再被一个变量引用时则计数减1.当引用计数等于0时对象被删除。 2、垃圾回收 引用计数 标记清除 主要解决引用计数循环引用的问题。通过根节点对象(不会被删除的对象)对有向图把所有活动对象打上标记,然后回收 阅读全文
posted @ 2019-09-07 16:17 尘世中一个迷途小书童 阅读(169) 评论(0) 推荐(0) 编辑