2019年1月24日

python爬虫----scrapy框架简介和基础应用

摘要: Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中。其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 阅读全文

posted @ 2019-01-24 20:21 窮山霧繞(静妙) 阅读(310) 评论(0) 推荐(0) 编辑

python网络爬虫《爬取get请求的页面数据》

摘要: 一、urllib库 urllib是python自带的一个用于爬虫的库,其主要作用就是可以通过代码模拟浏览器发送请求。其常被用到的子模块在python3中的为urllib.request和urllib.parse,在python2中是urllib和urllib2. 二、由易到难的爬虫程序: 1.爬取百 阅读全文

posted @ 2019-01-24 19:27 窮山霧繞(静妙) 阅读(286) 评论(0) 推荐(0) 编辑

python网络爬虫《http和https协议》

摘要: 一、HTTP协议 1.官方概念: HTTP协议是Hyper Text Transfer Protocol(超文本传输协议)的缩写,是用于从万维网(WWW:World Wide Web )服务器传输超文本到本地浏览器的传送协议。 2.HTTP工作原理: HTTP协议工作于客户端-服务端 架构上。浏览器 阅读全文

posted @ 2019-01-24 16:32 窮山霧繞(静妙) 阅读(285) 评论(0) 推荐(0) 编辑

python爬虫相关基础概念

摘要: 什么是爬虫 什么是爬虫 爬虫就是通过编写程序模拟浏览器上网,然后让其去互联网上抓取数据的过程。 哪些语言可以实现爬虫 哪些语言可以实现爬虫 1.php:可以实现爬虫。但是php在实现爬虫中支持多线程和多进程方面做得不好。 2.java:可以实现爬虫。java可以非常好的处理和实现爬虫,是唯一可以与p 阅读全文

posted @ 2019-01-24 15:46 窮山霧繞(静妙) 阅读(198) 评论(0) 推荐(0) 编辑

导航