Joker乔柯 - 博客园

2019 7.25学习笔记

摘要：元组里如果只有一项那一项后面要加上逗号 (xxxxxx, ) 在mysql操作中没有utf-8 只有utf8 Scrapy是一个框架，他本身是不支持分布式的。如果我们想要做分布式的爬虫，就需要借助一个组件叫做Scrapy-Redis，这个组件正是利用了Redis可以分布式的功能，集成到Scrapy 阅读全文

posted @ 2019-07-25 09:14 Joker乔柯阅读(138) 评论(0) 推荐(0)

2019 7.24学习笔记

摘要：设置随机请求头和ip代理池 middlewares.py代码如下：封装了一个models.py 还需在setting.py中设置阅读全文

posted @ 2019-07-24 23:52 Joker乔柯阅读(219) 评论(0) 推荐(0)

2019 7.23学习笔记

摘要：设置随机请求头需要用到的网站 www.useragentstring.com middlewares.py设置如下： httpbin.py设置如下设置随机开放ip代理同上相似设置独享ip代理 json.load跟json.loads的区别：阅读全文

posted @ 2019-07-23 06:59 Joker乔柯阅读(182) 评论(0) 推荐(0)

2019 7.14学习笔记

摘要：发送POST请求：有时候我们想要在请求数据的时候发送post请求，那么这时候需要使用Request的子类FormRequest来实现，如果想要在爬虫一开始的时候就发送POST请求，那么需要在爬虫类中重写 start_requests(self)方法，并且不再调用start_url。模拟登录人人网阅读全文

posted @ 2019-07-16 02:03 Joker乔柯阅读(98) 评论(0) 推荐(0)

2019 7.12学习笔记

摘要： 1.response是一个"scrapy.http.response.html.HtmlResponse"对象，可以执行"xpath"和"css"语法来提取数据。 2.提取出来的数据，是一个"Selector"或者是一个"SelectorList"对象。如果想要获取其中的字符串，那么应该执行"get 阅读全文

posted @ 2019-07-12 01:11 Joker乔柯阅读(260) 评论(0) 推荐(0)

2019 7.11学习笔记

摘要：爬取嗅事百科在爬虫项目的根目录创建一个启动文件来避免每次都要在命令行中输入代码来启动编写的爬虫脚本的代码如下 pipelines代码如下 settings.py需要取消注释 iteams.py代码如下：阅读全文

posted @ 2019-07-12 00:05 Joker乔柯阅读(116) 评论(0) 推荐(0)

2019 7.10学习笔记

摘要： set path 查看当前环境变量安装scrapy框架： 1.安装“scrapy”:通过”pip install scrapy” 即可安装 2.如果是在windows下，还需要安装“pypiwin32”,如果不安装，运行scrapy项目的时候就会报错创建一个scrapy项目创建一个目录。进入目阅读全文

posted @ 2019-07-11 23:45 Joker乔柯阅读(149) 评论(0) 推荐(0)

2019 7.9学习笔记

摘要： Tesseract OCR技术指的是将图片翻译成文字的光学文字识别技术。Tesseract是一个开源的OCR库，目前有谷歌赞助。Tesseract是目前公认最优秀、最准确的开源OCR库。 ######################################################## 阅读全文

posted @ 2019-07-10 04:36 Joker乔柯阅读(244) 评论(0) 推荐(0)

2019 7.8学习笔记

摘要：行为链有时候在页面中的操作可能要有很多步，这时候可以通过使用鼠标行为链类ActionChains来完成。 Cookie操作隐式等待和显示等待打开多窗口和切换窗口设置代理ip WebElement元素阅读全文

posted @ 2019-07-08 05:50 Joker乔柯阅读(105) 评论(0) 推荐(0)

2019 7.7学习笔记

摘要： selenium常用操作 driver.close() 关闭当前页面 driver.quit() 关闭整个浏览器定位元素的方法 1.如果只是想要解析网页中的数据，那么推荐将网页源代码扔给lxml来解析，因为lxml底层使用的是C语言，所以解析效率会更高。 2.如果是想要对元素进行一些操作，比如给一阅读全文

posted @ 2019-07-07 20:05 Joker乔柯阅读(178) 评论(0) 推荐(0)