该文被密码保护。 阅读全文
摘要:
Scrapy是用python实现的一个为了爬取网站数据,提取结构性数据而编写的应用框架。使用Twisted高效异步网络框架来处理网络通信。 Scrapy架构: ScrapyEngine:引擎。负责控制数据流在系统中所有组件中流动,并在相应动作发生时触发事件。 此组件相当于爬虫的“大脑”,是 整个爬虫 阅读全文
摘要:
PhantomJs:无头浏览器,支持JavaScript。(即包含Js引擎、浏览器排版引擎等核心组件,但是没有和用户交互的界面的浏览器。) Selenium:WEB自动化测试工具。可以直接运行在浏览器中。不同浏览器提供不同的操作接口,Selenium通过这些接口来操作浏览器。 webdriver:S 阅读全文
摘要:
新闻分页地址:https://news.cnblogs.com/n/page/10/;url中最后一个数字代表页码 阅读全文
摘要:
标准库urllib缺少了一些关键的功能,非标准库的第三方库urllib3提供了,比如说连接池管理。 import urllib3 url = 'https://movie.douban.com' ua = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_0 阅读全文
摘要:
https://movie.douban.com/ 直奔主题,给个要爬取的豆瓣电影地址,爬取热门电影名字。 右键选择查看网页源码,我们可以发现在网页静态源码里,是找不到‘来电狂想’这些关键字的。 通过检查网页,查看network下的XHR,我们可以找到对应的信息。说明我们想要爬取的这部分内容是通过A 阅读全文
摘要:
1. 爬虫分类: 1.1 通用爬虫:例如搜索引擎:无差别的收集数据;提取存储关键字;构建索引库;给用户提供搜索接口。 1.2 聚焦爬虫:有针对性的编写特定领域数据的爬取程序。 2. Robots协议: 指定一个robots.txt文件,告诉爬虫引擎什么可以爬取,什么不可以爬取。君子协议,不受法律保障 阅读全文
摘要:
因为我自己整理在笔记本上好几次,但是今天看到的时候,又凌乱了。所以还是再次重新整理到博客上。 在计算机的世界里: 1 bytes(字节) == 8 bite(比特);每个bite里存放0或1。 于是一个字节能表示的最大数是:11111111(2) == 255(10);能表示的最小数是:000000 阅读全文
摘要:
先看这个图,了解工作区、版本库、stage、HEAD、master、add、commit这几个概念。 (忘记自己从哪儿盗的图了...) git_relearn文件夹里就是一个工作区(working directory); .git隐藏的文件夹就是版本库(repositary); 版本库里包含暂存区( 阅读全文
摘要:
cpu = 运算器 + 控制器 运算器:完成算术运算、逻辑运算、数据传输等数据加工处理。 控制器:控制程序的执行。 存储器:用于记忆程序和数据。例如:内存。 输入设备:将数据或程序输入到计算机中。例如:鼠标、键盘等。 输出设备:将数据或程序的处理结果展示给用户。例如:显示器、打印机等。 常见文件IO 阅读全文