摘要:
反爬机制:网站检查请求的UA, 如果发现UA是爬虫程序,则拒绝提供网站数据 User-Agent(UA) : 请求载体的身份标识 反反爬机制:伪装爬虫程序请求的UA 阅读全文
摘要:
1.接口excel 2. sqlite数据库写入excel、导出excel数据 重点:(1)注意pycharm中的database可视化管理,必须是DDL的数据库才可以与代码联合使用 (2) 建议以sql原生语句的形式去代码创建表跟数据库 (3) sqlite3 只支持? 和:啥 这2个占位符格式, 阅读全文
摘要:
什么是selenium注意:chrome 需要与 chromedriver版本对应才能运行网上有相应的版本支持范围对照表 selenium 是一套完整的web应用程序测试系统,包含了测试的录制(selenium IDE),编写及运行(Selenium Remote Control)和测试的并行处理( 阅读全文
摘要:
官网地址:http://pyquery.readthedocs.io/en/latest/jQuery参考文档: http://jquery.cuishifeng.cn/ 初始化 初始化的时候一般有三种传入方式:传入字符串,传入url,传入文件 字符串初始化 URL初始化 文件初始化我们在pq()这 阅读全文
摘要:
上述为选择器的大体使用方法 基本使用标签选择器 通过这种soup.标签名 我们就可以获得这个标签的内容这里有个问题需要注意,通过这种方式获取标签,如果文档中有多个这样的标签,返回的结果是第一个标签的内容,如上面我们通过soup.p获取p标签,而文档中有多个p标签,但是只返回了第一个p标签内容 获取名 阅读全文
摘要:
在爬虫系统中,待抓取URL队列是很重要的一部分,待抓取URL队列中的URL以什么样的顺序排队列也是一个很重要的问题,因为这涉及到先抓取哪个页面,后抓取哪个页面。而决定这些URL排列顺序的方法,叫做抓取策略。下面是常用的两种策略:深度优先、广度优先 scrapy框架默认的是深度优先算法 深度优先与广度 阅读全文
摘要:
总体功能的一个演示 我们可以看出response使用起来确实非常方便,这里有个问题需要注意一下:很多情况下的网站如果直接response.text会出现乱码的问题,所以这个使用response.content这样返回的数据格式其实是二进制格式,然后通过decode()转换为utf-8,这样就解决了通 阅读全文
摘要:
第一种请求头的方式 第二种请求头的方式 设置代理通过rulllib.request.ProxyHandler()可以设置代理,网站它会检测某一段时间某个IP 的访问次数,如果访问次数过多,它会禁止你的访问,所以这个时候需要通过设置代理来爬取数据 cookie,HTTPCookiProcessor c 阅读全文