随笔分类 -  Python网络爬虫

摘要:HTML 遍历 HTML基本格式: 1.下行遍历: |属性|说明| |: :|: :| |contents|子节点的列表,将所有儿子节点存入列表| |children|子节点的迭代类型,与.contents类似,用于循环遍历儿子节点| |descendants|子孙节点的迭代类型,包含所有子孙节点, 阅读全文
posted @ 2019-01-13 21:10 JeffreyLee 阅读(2808) 评论(0) 推荐(0) 编辑
摘要:1. BeautifulSoup类的基本元素 |基本元素|说明| |: :|: :| |Tag|标签,最基本的信息组织单元,分别用和标明开头和结尾| |Name|标签的名字,…的名字是'p',格式:.name| |Attributes|标签的属性,字典形式组织,格式:.attrs| |Navigab 阅读全文
posted @ 2019-01-13 21:05 JeffreyLee 阅读(293) 评论(0) 推荐(0) 编辑
摘要:爬虫入门5个实例 实例1:京东商品页面的爬取 实例2:亚马逊商品页面的爬取 实例3:百度搜索关键字提交 实例4:网络图片的爬取和存储 实例5:IP地址归属地的自动查询 阅读全文
posted @ 2019-01-06 16:53 JeffreyLee 阅读(247) 评论(0) 推荐(0) 编辑
摘要:Requests库 7个主要方法 (1) requests.requests() (2) requests.get() (3) requests.head() (4) requests.post() (5) requests.put() (6) requests.patch() (7) reques 阅读全文
posted @ 2019-01-06 15:59 JeffreyLee 阅读(177) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示