摘要: 从0开始学爬虫6比价工具开发1之爬取当当、京东的数据 爬取当当数据 spider_dangdang.py 运行结果: # 爬取京东网站 # 爬取一号店的数据 # 爬取天猫的数据(淘宝需要登录,就改为爬取天猫) 阅读全文
posted @ 2019-07-08 19:14 reblue520 阅读(668) 评论(0) 推荐(0) 编辑
摘要: 从0开始学爬虫5之优雅的使用字符串 用%格式化字符串 %格式化基本语法: %[转换标记][宽度[.精度]]转换类型 Format方式格式化字符串 基本语法: [[填充符]对齐方式][符号][#][0][宽度][,][.精确度][转换类型] 字符串格式化举例 04use_str.py # 运行结果 阅读全文
posted @ 2019-07-08 15:24 reblue520 阅读(204) 评论(0) 推荐(0) 编辑
摘要: 从0开始学爬虫4之requests基础知识 安装requestspip install requests get请求:可以用浏览器直接访问请求可以携带参数,但是又长度限制请求参数直接放在URL后面 POST请求:不能使用浏览器直接访问对请求参数的长度没有限制可以用来上传文件等需求 requests常 阅读全文
posted @ 2019-07-08 15:10 reblue520 阅读(135) 评论(0) 推荐(0) 编辑
摘要: 从0开始学爬虫3之xpath的介绍和使用 Xpath:一种HTML和XML的查询语言,它能在XML和HTML的树状结构中寻找节点 安装xpath: pip install lxml HTML 超文本标记语言(HyperText Mark-up Language),是一种规范,一种标准,是构成网页文档 阅读全文
posted @ 2019-07-08 11:58 reblue520 阅读(528) 评论(0) 推荐(0) 编辑
摘要: 从0开始学爬虫2之json的介绍和使用 Json 一种轻量级的数据交换格式,通用,跨平台 键值对的集合,值的有序列表 类似于python中的dict Json中的键值如果是字符串一定要用双引号 json文件static/book.json Json的常用方法练习use_json.py 阅读全文
posted @ 2019-07-08 11:49 reblue520 阅读(261) 评论(0) 推荐(0) 编辑
摘要: 从0开始学爬虫1之环境搭建篇 下载地址https://www.python.org/downloads/ 设置环境变量: 安装pycharm 使用pycharm创建基于python3.6的虚拟环境,即相对独立的开发环境 这时候pytcharm就会去安装一些基础的包 Location: 本地代码存放的 阅读全文
posted @ 2019-07-08 11:38 reblue520 阅读(237) 评论(0) 推荐(0) 编辑