Corey0606 - 博客园

2018年12月7日

摘要：反爬机制：网站检查请求的UA，如果发现UA是爬虫程序，则拒绝提供网站数据 User-Agent(UA) : 请求载体的身份标识反反爬机制：伪装爬虫程序请求的UA 阅读全文

posted @ 2018-12-07 10:14 Corey0606 阅读(431) 评论(0) 推荐(0) 编辑

2018年12月4日

摘要： 1.接口excel 2. sqlite数据库写入excel、导出excel数据重点：（1）注意pycharm中的database可视化管理，必须是DDL的数据库才可以与代码联合使用（2）建议以sql原生语句的形式去代码创建表跟数据库（3） sqlite3 只支持？和：啥这2个占位符格式，阅读全文

posted @ 2018-12-04 10:01 Corey0606 阅读(1319) 评论(0) 推荐(0) 编辑

2018年11月30日

selenium

摘要：什么是selenium注意：chrome 需要与 chromedriver版本对应才能运行网上有相应的版本支持范围对照表 selenium 是一套完整的web应用程序测试系统，包含了测试的录制（selenium IDE）,编写及运行（Selenium Remote Control）和测试的并行处理（阅读全文

posted @ 2018-11-30 16:50 Corey0606 阅读(271) 评论(0) 推荐(0) 编辑

PyQuery库的使用

摘要：官网地址：http://pyquery.readthedocs.io/en/latest/jQuery参考文档： http://jquery.cuishifeng.cn/ 初始化初始化的时候一般有三种传入方式：传入字符串，传入url,传入文件字符串初始化 URL初始化文件初始化我们在pq()这阅读全文

posted @ 2018-11-30 16:35 Corey0606 阅读(347) 评论(0) 推荐(0) 编辑

BeautifulSoup相关的用法

摘要：上述为选择器的大体使用方法基本使用标签选择器通过这种soup.标签名我们就可以获得这个标签的内容这里有个问题需要注意，通过这种方式获取标签，如果文档中有多个这样的标签，返回的结果是第一个标签的内容，如上面我们通过soup.p获取p标签，而文档中有多个p标签，但是只返回了第一个p标签内容获取名阅读全文

posted @ 2018-11-30 16:16 Corey0606 阅读(200) 评论(0) 推荐(0) 编辑

2018年11月29日

关于深度优先和广度优先

摘要：在爬虫系统中，待抓取URL队列是很重要的一部分，待抓取URL队列中的URL以什么样的顺序排队列也是一个很重要的问题，因为这涉及到先抓取哪个页面，后抓取哪个页面。而决定这些URL排列顺序的方法，叫做抓取策略。下面是常用的两种策略：深度优先、广度优先 scrapy框架默认的是深度优先算法深度优先与广度阅读全文

posted @ 2018-11-29 10:39 Corey0606 阅读(332) 评论(0) 推荐(0) 编辑

2018年11月28日

request库的基本使用

摘要：总体功能的一个演示我们可以看出response使用起来确实非常方便，这里有个问题需要注意一下：很多情况下的网站如果直接response.text会出现乱码的问题，所以这个使用response.content这样返回的数据格式其实是二进制格式，然后通过decode()转换为utf-8，这样就解决了通阅读全文

posted @ 2018-11-28 16:41 Corey0606 阅读(2940) 评论(0) 推荐(0) 编辑

2018年11月27日

urllib的各种方法

摘要：第一种请求头的方式第二种请求头的方式设置代理通过rulllib.request.ProxyHandler()可以设置代理,网站它会检测某一段时间某个IP 的访问次数，如果访问次数过多，它会禁止你的访问,所以这个时候需要通过设置代理来爬取数据 cookie,HTTPCookiProcessor c 阅读全文

posted @ 2018-11-27 13:53 Corey0606 阅读(390) 评论(0) 推荐(0) 编辑

2018年11月26日

同步与异步

摘要： 1.同步调用 2.异步调用之回调函数 3.异步调用之携程简单版 4.异步调用之携程提升版 5.异步调用之携程最终版阅读全文

posted @ 2018-11-26 10:44 Corey0606 阅读(187) 评论(0) 推荐(0) 编辑

Python进程间通信Queue

摘要： 1.Queue使用方法： Queue.qsize()：返回当前队列包含的消息数量； Queue.empty()：如果队列为空，返回True，反之False ； Queue.full()：如果队列满了，返回True,反之False； Queue.get():获取队列中的一条消息，然后将其从列队中移除，阅读全文

posted @ 2018-11-26 10:06 Corey0606 阅读(436) 评论(0) 推荐(0) 编辑

COREY

公告