摘要:
信息标记的三种形式: XML(扩展标记语言) JSON(js中面向对象的信息表达形式,由类型的(string)键值对组成) "name":"北京理工大学" YAML(无类型的键值对组成) name:北京理工大学 三种信息标记方式的应用区别 XML:internet上的信息传递与交互 JSON:移动应 阅读全文
摘要:
使用BeautifulSoup库提取HTML页面信息 BeautifulSoup类的基本属性 标签树的下行遍历 标签树的上行遍历 遍历title标签的上一级标签 遍历a标签的所有前序节点以及后续节点 soup标签的上一级标签为空,所以要进行判断 阅读全文
摘要:
1、京东页面商品的爬取 2、亚马逊页面商品的爬取 更改user-agent访问头部属性,让代码模拟浏览器来向亚马逊服务器提供http请求 3、百度/360搜索关键字提交 两大搜索引擎关键词URL 4、网络图片的爬取与存储 4.1、网络图片的爬取与存储(优化版) 引入os模块,将图片保存在指定目录下; 阅读全文