摘要:Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中。其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services )
阅读全文
摘要:一、urllib库 urllib是python自带的一个用于爬虫的库,其主要作用就是可以通过代码模拟浏览器发送请求。其常被用到的子模块在python3中的为urllib.request和urllib.parse,在python2中是urllib和urllib2. 二、由易到难的爬虫程序: 1.爬取百
阅读全文
摘要:一、HTTP协议 1.官方概念: HTTP协议是Hyper Text Transfer Protocol(超文本传输协议)的缩写,是用于从万维网(WWW:World Wide Web )服务器传输超文本到本地浏览器的传送协议。 2.HTTP工作原理: HTTP协议工作于客户端-服务端 架构上。浏览器
阅读全文
摘要:什么是爬虫 什么是爬虫 爬虫就是通过编写程序模拟浏览器上网,然后让其去互联网上抓取数据的过程。 哪些语言可以实现爬虫 哪些语言可以实现爬虫 1.php:可以实现爬虫。但是php在实现爬虫中支持多线程和多进程方面做得不好。 2.java:可以实现爬虫。java可以非常好的处理和实现爬虫,是唯一可以与p
阅读全文
摘要:Jupyter NoteBook 的快捷键使用指南 命令模式快捷键(按 Esc 键开启): 快捷键作用说明 Enter 转入编辑模式 Shift-Enter 运行本单元,选中下个单元 新单元默认为命令模式 Ctrl-Enter 运行本单元 Alt-Enter 运行本单元,在其下插入新单元 新单元默认
阅读全文