Python爬虫

爬虫又称网络蜘蛛，是代码获取资料的一种方式。

常用库：requests，bs4，lxml，fake_useragent。

通常运行模式：

　　1、发起请求

　　　　通常可用requests发起各类的网络请求。

　　2、获取数据

　　　　通常可用requests的get函数获取大部分网页。

　　3、解析数据

　　　　解析方式：

　　　　　　正则表达式

　　　　　　beautifulsoup

　　　　　　xpath

　　　　　　css选择器

　　4、保存数据。

　　　　通常可保存为csv，txt或者存入数据库。

本人学习的网站：B站（问就是一个很好的学习网站），木下瞳爬虫（入门实战，强推！）。

从零入门：五天速成教程。

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _（手动分割线）

博客小白，个人记录，很多待补充，想到再慢慢修改，欢迎批评指正。

摘自：网络上很多的大神。侵删。。

转载请附原文链接以及作者，谢谢。

一个啥都想整小白白白。。。

posted @ 2021-02-02 01:07 天糖阅读(56) 评论(0) 编辑收藏举报

刷新页面返回顶部

天糖

Python爬虫

公告