理解爬虫原理

本次作业的要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2851

1. 简单说明爬虫原理

网络爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。也就是请求网站并提取数据的自动化程序。

2. 理解爬虫开发过程

1).简要说明浏览器工作原理

模拟浏览器发送请求(获取网页代码)->提取有用的数据->存放于数据库或文件中。主要由以下步骤:

发起请求

使用http库向目标站点发起请求,即发送一个Request

Request包含:请求头、请求体等 

Request模块缺陷:不能执行JS 和CSS 代码

获取响应内容

如果服务器能正常响应,则会得到一个Response

Response包含:html,json,图片,视频等

解析内容

解析html数据:正则表达式(RE模块),第三方解析库如Beautifulsoup,pyquery等

解析json数据:json模块

解析二进制数据:以wb的方式写入文件

保存数据

数据库(MySQL,Mongdb、Redis)

文件

 2).使用 requests 库抓取网站数据

代码如下:

运行结果:

3).了解网页

写一个HTML界面代码如下:

运行界面如下:

4).使用 Beautiful Soup 解析网页

通过BeautifulSoup(html_sample,'html.parser')把上述html文件解析成DOM Tree

代码如下:

运行结果:

3.提取一篇校园新闻的标题、发布时间、发布单位

代码如下:

 

运行结果:

 

posted on 2019-03-27 11:36  李先灿  阅读(132)  评论(0编辑  收藏  举报

导航