摘要: 1.BeautifulSoup简介 BeautifulSoup4和 lxml 一样,Beautiful Soup 也是一个HTML/XML的解析器,主要的功能也是如何解析和提取 HTML/XML 数据。 BeautifulSoup支持Python标准库中的HTML解析器,还支持一些第三方的解析器,如 阅读全文
posted @ 2020-02-05 15:37 雾霾王者 阅读(23145) 评论(0) 推荐(0) 编辑
摘要: 1.下行遍历 标签树的下行遍历.content 子节点列表,将tag所有儿子节点存入列表.children 子节点的迭代类型,与.contents类似用于循环遍历儿子节点.descendants 子孙节点的迭代类型,包含所有子孙节点,用于循环遍历 测试代码: import requests from 阅读全文
posted @ 2020-02-05 15:29 雾霾王者 阅读(3795) 评论(0) 推荐(0) 编辑
摘要: 今天主要又继续了Python网络爬虫的学习,并完成了首都之窗百姓信件单一页面的爬取,明天打算完成整个爬虫任务。 源代码如下: import requests from bs4 import BeautifulSoup kv = {'user-agent': 'Mozilla/5.0'} id="AH 阅读全文
posted @ 2020-02-05 15:25 雾霾王者 阅读(204) 评论(0) 推荐(0) 编辑