2019年7月25日

2019 7.25学习笔记

摘要: 元组里如果只有一项 那一项后面要加上逗号 (xxxxxx, ) 在mysql操作中没有utf-8 只有utf8 Scrapy是一个框架,他本身是不支持分布式的。如果我们想要做分布式的爬虫,就需要借助一个组件叫做Scrapy-Redis,这个组件正是利用了Redis可以分布式的功能,集成到Scrapy 阅读全文

posted @ 2019-07-25 09:14 Joker乔柯 阅读(129) 评论(0) 推荐(0) 编辑

2019年7月24日

2019 7.24学习笔记

摘要: 设置随机请求头和ip代理池 middlewares.py代码如下: 封装了一个models.py 还需在setting.py中设置 阅读全文

posted @ 2019-07-24 23:52 Joker乔柯 阅读(200) 评论(0) 推荐(0) 编辑

2019年7月23日

2019 7.23学习笔记

摘要: 设置随机请求头需要用到的网站 www.useragentstring.com middlewares.py设置如下: httpbin.py设置如下 设置随机开放ip代理同上相似 设置独享ip代理 json.load跟json.loads的区别: 阅读全文

posted @ 2019-07-23 06:59 Joker乔柯 阅读(170) 评论(0) 推荐(0) 编辑

2019年7月16日

2019 7.14学习笔记

摘要: 发送POST请求: 有时候我们想要在请求数据的时候发送post请求,那么这时候需要使用Request的子类FormRequest来实现,如果想要在爬虫一开始的时候就发送POST请求,那么需要在爬虫类中重写 start_requests(self)方法,并且不再调用start_url。 模拟登录人人网 阅读全文

posted @ 2019-07-16 02:03 Joker乔柯 阅读(93) 评论(0) 推荐(0) 编辑

2019年7月12日

2019 7.12学习笔记

摘要: 1.response是一个"scrapy.http.response.html.HtmlResponse"对象,可以执行"xpath"和"css"语法来提取数据。 2.提取出来的数据,是一个"Selector"或者是一个"SelectorList"对象。如果想要获取其中的字符串,那么应该执行"get 阅读全文

posted @ 2019-07-12 01:11 Joker乔柯 阅读(253) 评论(0) 推荐(0) 编辑

2019 7.11学习笔记

摘要: 爬取嗅事百科 在爬虫项目的根目录创建一个启动文件 来避免每次都要在命令行中输入代码来启动 编写的爬虫脚本的代码如下 pipelines代码如下 settings.py需要取消注释 iteams.py代码如下: 阅读全文

posted @ 2019-07-12 00:05 Joker乔柯 阅读(109) 评论(0) 推荐(0) 编辑

2019年7月11日

2019 7.10学习笔记

摘要: set path 查看当前环境变量 安装scrapy框架: 1.安装“scrapy”:通过”pip install scrapy” 即可安装 2.如果是在windows下,还需要安装“pypiwin32”,如果不安装,运行scrapy项目的时候就会报错 创建一个scrapy项目 创建一个目录。进入目 阅读全文

posted @ 2019-07-11 23:45 Joker乔柯 阅读(144) 评论(0) 推荐(0) 编辑

2019年7月10日

2019 7.9学习笔记

摘要: Tesseract OCR技术指的是将图片翻译成文字的光学文字识别技术。Tesseract是一个开源的OCR库,目前有谷歌赞助。Tesseract是目前公认最优秀、最准确的开源OCR库。 ######################################################## 阅读全文

posted @ 2019-07-10 04:36 Joker乔柯 阅读(226) 评论(0) 推荐(0) 编辑

2019年7月8日

2019 7.8学习笔记

摘要: 行为链 有时候在页面中的操作可能要有很多步,这时候可以通过使用鼠标行为链类ActionChains来完成。 Cookie操作 隐式等待和显示等待 打开多窗口和切换窗口 设置代理ip WebElement元素 阅读全文

posted @ 2019-07-08 05:50 Joker乔柯 阅读(98) 评论(0) 推荐(0) 编辑

2019年7月7日

2019 7.7学习笔记

摘要: selenium常用操作 driver.close() 关闭当前页面 driver.quit() 关闭整个浏览器 定位元素的方法 1.如果只是想要解析网页中的数据,那么推荐将网页源代码扔给lxml来解析,因为lxml底层使用的是C语言,所以解析效率会更高。 2.如果是想要对元素进行一些操作,比如给一 阅读全文

posted @ 2019-07-07 20:05 Joker乔柯 阅读(166) 评论(0) 推荐(0) 编辑

导航