该文被密码保护。 阅读全文
posted @ 2019-09-05 00:46 DoubleFishes 阅读(48) 评论(1) 推荐(0) 编辑
摘要: Scrapy是用python实现的一个为了爬取网站数据,提取结构性数据而编写的应用框架。使用Twisted高效异步网络框架来处理网络通信。 Scrapy架构: ScrapyEngine:引擎。负责控制数据流在系统中所有组件中流动,并在相应动作发生时触发事件。 此组件相当于爬虫的“大脑”,是 整个爬虫 阅读全文
posted @ 2019-03-23 21:18 DoubleFishes 阅读(28086) 评论(4) 推荐(6) 编辑
摘要: PhantomJs:无头浏览器,支持JavaScript。(即包含Js引擎、浏览器排版引擎等核心组件,但是没有和用户交互的界面的浏览器。) Selenium:WEB自动化测试工具。可以直接运行在浏览器中。不同浏览器提供不同的操作接口,Selenium通过这些接口来操作浏览器。 webdriver:S 阅读全文
posted @ 2019-03-22 15:10 DoubleFishes 阅读(2418) 评论(2) 推荐(0) 编辑
摘要: 新闻分页地址:https://news.cnblogs.com/n/page/10/;url中最后一个数字代表页码 阅读全文
posted @ 2019-03-21 19:17 DoubleFishes 阅读(622) 评论(0) 推荐(0) 编辑
摘要: 标准库urllib缺少了一些关键的功能,非标准库的第三方库urllib3提供了,比如说连接池管理。 import urllib3 url = 'https://movie.douban.com' ua = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_0 阅读全文
posted @ 2019-03-07 14:11 DoubleFishes 阅读(1146) 评论(0) 推荐(0) 编辑
摘要: https://movie.douban.com/ 直奔主题,给个要爬取的豆瓣电影地址,爬取热门电影名字。 右键选择查看网页源码,我们可以发现在网页静态源码里,是找不到‘来电狂想’这些关键字的。 通过检查网页,查看network下的XHR,我们可以找到对应的信息。说明我们想要爬取的这部分内容是通过A 阅读全文
posted @ 2019-03-06 21:35 DoubleFishes 阅读(5825) 评论(1) 推荐(2) 编辑
摘要: 1. 爬虫分类: 1.1 通用爬虫:例如搜索引擎:无差别的收集数据;提取存储关键字;构建索引库;给用户提供搜索接口。 1.2 聚焦爬虫:有针对性的编写特定领域数据的爬取程序。 2. Robots协议: 指定一个robots.txt文件,告诉爬虫引擎什么可以爬取,什么不可以爬取。君子协议,不受法律保障 阅读全文
posted @ 2019-03-06 20:02 DoubleFishes 阅读(324) 评论(0) 推荐(0) 编辑
摘要: 因为我自己整理在笔记本上好几次,但是今天看到的时候,又凌乱了。所以还是再次重新整理到博客上。 在计算机的世界里: 1 bytes(字节) == 8 bite(比特);每个bite里存放0或1。 于是一个字节能表示的最大数是:11111111(2) == 255(10);能表示的最小数是:000000 阅读全文
posted @ 2019-03-06 17:54 DoubleFishes 阅读(641) 评论(0) 推荐(0) 编辑
摘要: 先看这个图,了解工作区、版本库、stage、HEAD、master、add、commit这几个概念。 (忘记自己从哪儿盗的图了...) git_relearn文件夹里就是一个工作区(working directory); .git隐藏的文件夹就是版本库(repositary); 版本库里包含暂存区( 阅读全文
posted @ 2019-03-04 20:15 DoubleFishes 阅读(2254) 评论(0) 推荐(0) 编辑
摘要: cpu = 运算器 + 控制器 运算器:完成算术运算、逻辑运算、数据传输等数据加工处理。 控制器:控制程序的执行。 存储器:用于记忆程序和数据。例如:内存。 输入设备:将数据或程序输入到计算机中。例如:鼠标、键盘等。 输出设备:将数据或程序的处理结果展示给用户。例如:显示器、打印机等。 常见文件IO 阅读全文
posted @ 2019-03-04 16:05 DoubleFishes 阅读(226) 评论(0) 推荐(0) 编辑