打赏

2.01_Python网络爬虫概述

一:什么是网络爬虫

  网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取网络信息的程序或者脚本;

二:为什么要做网络爬虫?

  大数据时代,要进行数据分析,首先要有数据源,数据从何而来?

  在进行大数据分析或者进行数据挖掘的时候,数据源可以从某些提供数据统计的网站获得,也可以从某些文献或内部资料中获得,但是这些获得数据的方式,

有时很难满足我们对数据的需求,而手动从互联网中去寻找这些数据,则耗费的精力过大。此时就可以利用爬虫技术,自动地从互联网中获取我们感兴趣的数据内

容,并将这些数据内容爬取回来,作为我们的数据源,从而进行更深层次的数据分析,并获得更多有价值的信息。

  比如说:     

  而学习爬虫,可以让我们获取更多的数据源,并且这些数据源可以按我们的目的进行采集,去掉很多无关数据。

三:浏览器请求URL:

  当用户输入网址之后,经过DNS服务器,找到服务器主机,然后向服务器发出请求,服务器经过解析之后,发送给用户的浏览器HTML、JS、CSS等文件,

浏览器解析出来,便看到形形色色的图片,因此,用户看到的网页实质是由HTML代码构成的,爬虫爬来的正是这些内容,通过分析过滤和谐HTML代码,实现对

图片、文字等资源的获取;

四:关于网络爬虫

  1. Python基础语法学习(基础知识)

  2. 对HTML页面的内容抓取(数据抓取)

  3. 对HTML页面的数据提取(数据提取)

  4. Scrapy框架以及scrapy-redis分布式策略(第三方框架)

  6. 爬虫(Spider)、反爬虫(Anti-Spider)、反反爬虫(Anti-Anti-Spider)之间的斗争....

posted @ 2018-05-06 22:28  QueryMarsBo  阅读(329)  评论(0编辑  收藏  举报