摘要: 信息标记的三种形式: XML(扩展标记语言) JSON(js中面向对象的信息表达形式,由类型的(string)键值对组成) "name":"北京理工大学" YAML(无类型的键值对组成) name:北京理工大学 三种信息标记方式的应用区别 XML:internet上的信息传递与交互 JSON:移动应 阅读全文
posted @ 2019-04-27 16:43 假如年少有为 阅读(246) 评论(0) 推荐(0) 编辑
摘要: 使用BeautifulSoup库提取HTML页面信息 BeautifulSoup类的基本属性 标签树的下行遍历 标签树的上行遍历 遍历title标签的上一级标签 遍历a标签的所有前序节点以及后续节点 soup标签的上一级标签为空,所以要进行判断 阅读全文
posted @ 2019-04-27 12:23 假如年少有为 阅读(228) 评论(0) 推荐(0) 编辑
摘要: 1、京东页面商品的爬取 2、亚马逊页面商品的爬取 更改user-agent访问头部属性,让代码模拟浏览器来向亚马逊服务器提供http请求 3、百度/360搜索关键字提交 两大搜索引擎关键词URL 4、网络图片的爬取与存储 4.1、网络图片的爬取与存储(优化版) 引入os模块,将图片保存在指定目录下; 阅读全文
posted @ 2019-04-27 10:29 假如年少有为 阅读(975) 评论(0) 推荐(0) 编辑