基础爬虫(原理)

网络爬虫：模拟浏览器自动的浏览网页即：一段程序（一个脚本）

作用：自动的批量采集需要的资源

环境：python3

模块：requests (第三方库)

安装---->cmd pip install requests

eg:

import requests

import re

#下载一个网页

url = 'www.jingcaiyuedu.com'

#模拟浏览器发送http请求

response = requests.get(url)

#编码方式

response.encoding = 'utf-8'

#目标小说主页的网页源码

html = response.text

#小说的名字

title = re.findall(r'<mete prooerty="og:title" content="(.*?)"/>,html)[0]

#获取每一章的信息（章节，url)

dl = re.findall(r'<dl id="list">.*?</dl>,html,re.S)[0]

chapter_info_list = re.findall(r'href="(.*?)">(.*?)<',dl)

print(chapter_info_list)

开发爬虫步骤：

-目标数据：网站页面

-分析数据加载流程：分析目标数据所对应的url

-下载数据

-清洗处理数据

-数据持久化

posted @ 2019-03-15 16:35 FlawlessM 阅读(176) 评论(0) 编辑收藏举报

刷新页面返回顶部

FlawlessM