2.01_Python网络爬虫概述

一：什么是网络爬虫

　　网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取网络信息的程序或者脚本；

二：为什么要做网络爬虫？

　　大数据时代，要进行数据分析，首先要有数据源，数据从何而来？

　　在进行大数据分析或者进行数据挖掘的时候，数据源可以从某些提供数据统计的网站获得，也可以从某些文献或内部资料中获得，但是这些获得数据的方式，

有时很难满足我们对数据的需求，而手动从互联网中去寻找这些数据，则耗费的精力过大。此时就可以利用爬虫技术，自动地从互联网中获取我们感兴趣的数据内

容，并将这些数据内容爬取回来，作为我们的数据源，从而进行更深层次的数据分析，并获得更多有价值的信息。

　　比如说：　　　　　

　　而学习爬虫，可以让我们获取更多的数据源，并且这些数据源可以按我们的目的进行采集，去掉很多无关数据。

三：浏览器请求URL:

　　当用户输入网址之后，经过DNS服务器，找到服务器主机，然后向服务器发出请求，服务器经过解析之后，发送给用户的浏览器HTML、JS、CSS等文件，

浏览器解析出来，便看到形形色色的图片，因此，用户看到的网页实质是由HTML代码构成的，爬虫爬来的正是这些内容，通过分析过滤和谐HTML代码，实现对

图片、文字等资源的获取；

四：关于网络爬虫

　　1. Python基础语法学习（基础知识）

　　2. 对HTML页面的内容抓取（数据抓取）

　　3. 对HTML页面的数据提取（数据提取）

　　4. Scrapy框架以及scrapy-redis分布式策略（第三方框架）

　　6. 爬虫(Spider)、反爬虫(Anti-Spider)、反反爬虫(Anti-Anti-Spider)之间的斗争....

posted @ 2018-05-06 22:28 QueryMarsBo 阅读(344) 评论(0) 收藏举报

刷新页面返回顶部

QueryMarsBo