摘要:
如何设置禁止cookie? 在setting中 添加字段: COOKIE_ENABLED = False # False关闭cookie,True打开 如何设置下载限速? 在setting中 添加字段: TELNETCONSOLE_ENABLED = False # 默认为0 如何动态设置下载速度? 阅读全文
posted @ 2017-08-15 22:15
梦_鱼
阅读(590)
评论(0)
推荐(0)
摘要:
什么是ip代理? 我们电脑访问网站,其实是访问远程的服务器,通过ip地址识别是那个机器访问了服务器,服务器就知道数据该返回给哪台机器,我们生活中所用的网络是局域网,ip是运营商随机分配的,是一种直接访问服务器的方式 代理服务器是一种间接方式,本地机器访问ip代理服务器,ip代理服务器帮我们发起服务请 阅读全文
posted @ 2017-08-15 21:58
梦_鱼
阅读(676)
评论(0)
推荐(0)
摘要:
什么是user-agent? 用户代理,服务器识别用户的操作系统,浏览器类型和渲染引擎,不同浏览器的user-agent是不同的 如何随机更改user-agent? 1. 在setting中添加user-agent列表 2. 在download_middleware中导入user-agent列表,每 阅读全文
posted @ 2017-08-15 21:53
梦_鱼
阅读(255)
评论(0)
推荐(0)
摘要:
scrapy中重要的两个类是什么? Requests、Response 什么是Requests? 网页下载 有哪些参数? url callback headers # 头部信息 cookie # 会自带cookie meta # request和response中添加信息 encoding # 默认 阅读全文
posted @ 2017-08-15 21:33
梦_鱼
阅读(182)
评论(0)
推荐(0)
摘要:
爬虫中有哪些专业术语? 爬虫:自动获取网站数据的程序,关键是批量的获取 反爬虫:使用技术手段防止爬虫程序的方法 误伤:反爬虫技术将普通用户识别为爬虫,效果再好也不能用(禁止ip) 成本:反爬虫需要人力和机器成本 拦截:识别为爬虫,拦截几率越高,误伤越高 反爬虫的目的? 初级爬虫:简单粗暴,不管服务器 阅读全文
posted @ 2017-08-15 21:25
梦_鱼
阅读(140)
评论(0)
推荐(0)
摘要:
如何查询scrapy有哪些模版? 如何创建crawl模版? scrapy genspider -t crawl 域名 如何把搜索目录加入到环境变量? setting: 全站爬取和普通爬虫有什么区别? 1. 继承不同,普通继承:scrapy.Spider,全站继承:CrawlSpider 2. 爬取策 阅读全文
posted @ 2017-08-15 20:46
梦_鱼
阅读(566)
评论(0)
推荐(0)