摘要: parsel的使用 parsel库可以解析HTML和XML,并支持使用xpath和css选择器对内容进行提取和修改,支持三大功能:.css(),.xpath(),.re() 1.初始化 在使用css选择器,xpath还是re,都先需要创建一个Selector对象 from parsel import 阅读全文
posted @ 2021-12-22 16:29 写代码的小灰 阅读(1877) 评论(1) 推荐(0)
摘要: pyquery的使用 1.安装pyquery 使用pip3 install pyquery 2. 初始化 在使用pyquery库解析HTML文本的时候,需要先将其初始化为一个PyQuery对象 字符串初始化 from pyquery import PyQuery as pq html = ''' < 阅读全文
posted @ 2021-12-22 09:47 写代码的小灰 阅读(217) 评论(0) 推荐(0)
摘要: Beautiful Soup的使用 1. 基本使用 from bs4 import BeautifulSoup html = """ <html><head><title>The Dormouse's story</title></head> <body> <p class="title" name 阅读全文
posted @ 2021-12-17 08:35 写代码的小灰 阅读(52) 评论(0) 推荐(0)
摘要: Xpath的使用 Xpath全称是XML Path Language,即XML路径语言,用来在XML文档中查找信息。 虽然最初是用来搜寻XML文档的,但是在HTML文档中也同样适用。 在做爬虫的时候,完全可以使用XPath实现相应的信息提取 Xpath提供了100多个内建函数,用于字符串、数值、时间 阅读全文
posted @ 2021-12-16 09:16 写代码的小灰 阅读(486) 评论(0) 推荐(0)
摘要: urllib学习 1. urllib的使用 request:最基本的HTTP请求模块,可以模拟请求的发送。就像是在浏览器中输入网址然后按下回车一样 error:异常处理模块。如果出现请求异常,就可以捕获这些异常,然后进行重试或者其他操作以保证程序 parse:一个工具模块,提供了许多URL的处理方法 阅读全文
posted @ 2021-12-15 10:58 写代码的小灰 阅读(101) 评论(0) 推荐(0)
摘要: httpx的使用 requests库的已经可以爬取大多数网站的数据,但是对于一些强制使用http/2.0协议访问的网站requests库是无能为力的,这时就需要使用httpx库 import requests url = 'https://spa16.scrape.center/' respond 阅读全文
posted @ 2021-12-14 09:37 写代码的小灰 阅读(1035) 评论(1) 推荐(0)
摘要: 正则表达式 1.常用的匹配规则 模式 描述 \w 匹配字母、数字以及下划线 \W 匹配不是字母、数字以及下划线的字符 \s 匹配任意空白字符 \S 匹配任意非空字符 \d 匹配任意数字,相当于[0-9] \D 匹配任意非数字的字符 \A 匹配字符串的开头 \Z 匹配字符串结尾,如果存在换行,只匹配到 阅读全文
posted @ 2021-12-13 17:16 写代码的小灰 阅读(38) 评论(0) 推荐(0)
摘要: Resquests库的7个主要方法 方法 作用 requests.request() 构造一个请求,支撑以下方法的基础方法 requests.get() 获取HTML网页,对应http的get requests.head() 获取HTML网页头信息,对应http的head requests.post 阅读全文
posted @ 2021-12-13 10:04 写代码的小灰 阅读(275) 评论(0) 推荐(0)
摘要: 文件和异常 1、文件 1.1 从文件中读取数据 使用文本文件中的数据,可以直接将整个文本文件读取出来,也可以逐行读取 1.1.1 读取整个文件 with open('content.txt') as file : contents = file.read() print(contents.rstri 阅读全文
posted @ 2021-12-09 09:41 写代码的小灰 阅读(63) 评论(0) 推荐(0)
摘要: 类 1.创建和使用类 1.1创建dog类 class Dog: """模拟小狗""" def __init__(self, name, age): """初始化属性""" self.name = name self.age = age def sit(self): """模拟小狗坐下""" prin 阅读全文
posted @ 2021-12-02 18:08 写代码的小灰 阅读(65) 评论(0) 推荐(0)