2017 年 8月 15 日随笔档案 - 梦_鱼

2017年8月15日

摘要：如何设置禁止cookie？在setting中添加字段： COOKIE_ENABLED = False # False关闭cookie，True打开如何设置下载限速？在setting中添加字段： TELNETCONSOLE_ENABLED = False # 默认为0 如何动态设置下载速度？阅读全文

posted @ 2017-08-15 22:15 梦_鱼阅读(590) 评论(0) 推荐(0)

scrapy_随机ip代理池

摘要：什么是ip代理？我们电脑访问网站，其实是访问远程的服务器，通过ip地址识别是那个机器访问了服务器，服务器就知道数据该返回给哪台机器，我们生活中所用的网络是局域网，ip是运营商随机分配的，是一种直接访问服务器的方式代理服务器是一种间接方式，本地机器访问ip代理服务器，ip代理服务器帮我们发起服务请阅读全文

posted @ 2017-08-15 21:58 梦_鱼阅读(676) 评论(0) 推荐(0)

scrapy_随机user-agent

摘要：什么是user-agent？用户代理，服务器识别用户的操作系统，浏览器类型和渲染引擎，不同浏览器的user-agent是不同的如何随机更改user-agent？ 1. 在setting中添加user-agent列表 2. 在download_middleware中导入user-agent列表，每阅读全文

posted @ 2017-08-15 21:53 梦_鱼阅读(255) 评论(0) 推荐(0)

scrapy_Response and Request

摘要： scrapy中重要的两个类是什么？ Requests、Response 什么是Requests？网页下载有哪些参数？ url callback headers # 头部信息 cookie # 会自带cookie meta # request和response中添加信息 encoding # 默认阅读全文

posted @ 2017-08-15 21:33 梦_鱼阅读(182) 评论(0) 推荐(0)

爬虫_vs_反爬虫

摘要：爬虫中有哪些专业术语？爬虫：自动获取网站数据的程序，关键是批量的获取反爬虫：使用技术手段防止爬虫程序的方法误伤：反爬虫技术将普通用户识别为爬虫，效果再好也不能用（禁止ip）成本：反爬虫需要人力和机器成本拦截：识别为爬虫，拦截几率越高，误伤越高反爬虫的目的？初级爬虫：简单粗暴，不管服务器阅读全文

posted @ 2017-08-15 21:25 梦_鱼阅读(140) 评论(0) 推荐(0)

scrapy_全站爬取

摘要：如何查询scrapy有哪些模版？如何创建crawl模版？ scrapy genspider -t crawl 域名如何把搜索目录加入到环境变量？ setting：全站爬取和普通爬虫有什么区别？ 1. 继承不同，普通继承：scrapy.Spider，全站继承：CrawlSpider 2. 爬取策阅读全文

posted @ 2017-08-15 20:46 梦_鱼阅读(566) 评论(0) 推荐(0)

梦鱼

公告