2022年3月19日
摘要: beautifulsoup4 https://beautifulsoup.cn/#id28 功能:从HTML或者XML文件中提取数据,将一段文档传入BeautifulSoup 的构造方法,就能得到一个文档的对象, 可以传入一段字符串或一个文件句柄。 文档会被转换编码; soup选择最适合的解析器来解 阅读全文
posted @ 2022-03-19 11:12 cookie的笔记簿 阅读(35) 评论(0) 推荐(0) 编辑
摘要: 正则表达式 https://www.runoob.com/python/python-reg-expressions.html import re line = "Cats are smarter than dogs" pattern = r'(.*) than (.*)' re.match函数 r 阅读全文
posted @ 2022-03-19 11:10 cookie的笔记簿 阅读(19) 评论(0) 推荐(0) 编辑
摘要: 在 Tag 或 BeautifulSoup 对象的 .select() 方法中传入字符串参数, 即可使用CSS选择器的语法找到tag: CSS选择器 soup.select("title") # [<title>The Dormouse's story</title>] soup.select("p 阅读全文
posted @ 2022-03-19 11:00 cookie的笔记簿 阅读(202) 评论(0) 推荐(0) 编辑