基础爬虫(原理)
网络爬虫:模拟浏览器自动的浏览网页 即:一段程序(一个脚本)
作用:自动的批量采集需要的资源
环境:python3
模块:requests (第三方库)
安装---->cmd pip install requests
eg:
import requests
import re
#下载一个网页
url = 'www.jingcaiyuedu.com'
#模拟浏览器发送http请求
response = requests.get(url)
#编码方式
response.encoding = 'utf-8'
#目标小说主页的网页源码
html = response.text
#小说的名字
title = re.findall(r'<mete prooerty="og:title" content="(.*?)"/>,html)[0]
#获取每一章的信息(章节,url)
dl = re.findall(r'<dl id="list">.*?</dl>,html,re.S)[0]
chapter_info_list = re.findall(r'href="(.*?)">(.*?)<',dl)
print(chapter_info_list)
开发爬虫步骤:
-目标数据: 网站 页面
-分析数据加载流程: 分析目标数据所对应的url
-下载数据
-清洗 处理数据
-数据持久化