02 2022 档案

摘要:beautifulsoup4 引用:from bs4 import BeautifulSoup BeautifulSoup 类 soup = BeautifulSoup(),此类会在初始化时自动修正html 获取节点 soup.节点名,比如soup.p获取节点,会返回第一个匹配到的p节点,返回类型是 阅读全文
posted @ 2022-02-27 17:53 liDB 阅读(97) 评论(0) 推荐(0) 编辑
摘要:urllib request 最基本的http请求模块 build_opener 函数 使用一些默认的handler构建一个opener(OpenerDirector类型) urlopen 函数 最基本的构造HTTP请求的方法,实际这个函数内部就是使用build_opener完成创建opener,然 阅读全文
posted @ 2022-02-27 11:13 liDB 阅读(44) 评论(0) 推荐(0) 编辑
摘要:scrapy spider 爬虫,负责生成Request以及对爬取结果解析并生成对应的Item spider middleware 爬虫中间件,位于engine和spider之间,可以对响应和Item进行处理 engine 引擎,负责处理整个系统的数据流和事件 schelduler 调度器,负责维护 阅读全文
posted @ 2022-02-12 11:04 liDB 阅读(69) 评论(0) 推荐(0) 编辑
摘要:git add 之后,git status 把添加的文件通过正则替换后,复制到files = [xxx]中 比如: modified: crawler/main.py modified: crawler/download.py 替换为 'crawler/main.py', 'crawler/down 阅读全文
posted @ 2022-02-09 18:01 liDB 阅读(60) 评论(0) 推荐(0) 编辑
摘要:用作布尔表达式(如用作if语句中的条件)时,下面的值都将被解释器视为假: False None 0 "" () [] {} 也就是说, 标准值False和None、 各种类型(包括浮点数、复数等)的数值0、 空序列(如空字符串、空元组和空列表)、 空映射(如空字典)都被视为假, 而其他各种值都被视为 阅读全文
posted @ 2022-02-09 15:45 liDB 阅读(179) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示