10 2022 档案

爬虫--正则表达式-爬取网页表情包

摘要：准备工作： import requests //用于请求网页import re //正则表达式，用于解析筛选网页中的信息编写程序通过requests去请求网页 headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; 阅读全文

posted @ 2022-10-20 21:41 zhang0513 阅读(25) 评论(0) 推荐(0) 编辑

爬虫-数据解析方法--re模块常用方法【正则表达式】

摘要：一、数据解析三种方式正则 re解析【和正则表达式配合使用】 bs4解析 xpath解析主要 1、re模块的使用【re是内置模块】导入re模块 import re re.findall（）查找所有，返回一个list #re.findall("匹配词",“字符串”) 1 lst1 = re.fin 阅读全文

posted @ 2022-10-20 21:19 zhang0513 阅读(69) 评论(0) 推荐(0) 编辑

03、Python爬虫程序说明

摘要：1、上篇讲到用pyhon内置的url,lib模块进行请求，但是，它并不是常用的爬虫工具，一般抓取页面的数据常第三方的requests模块，比较方法/ 2、使用第三方模块的时候，需要对第三方模块进行安装，可以使用命令进行安装： 1 pip install requests #安装模块2 pip ins 阅读全文

posted @ 2022-10-17 22:19 zhang0513 编辑

02、体验爬虫

摘要：在python中，可以通过向浏览器中发请求来获取资源，首先用urllib模块完成对浏览器的请求工作 Python 内置的 urllib 库获取网页的 html 信息。urllib 库属于 Python 的标准库模块，无须单独安装，它是 Python 爬虫的常用模块。代码如下： from urlli 阅读全文

posted @ 2022-10-17 20:22 zhang0513 编辑