随笔分类 -  嘿python基础_爬虫

python_spider_学习笔记
摘要:一.安装xlrd模块 二.读取excel文件 三.读取工作表内容 阅读全文
posted @ 2018-07-28 11:11 lowmanisbusy 阅读(1419) 评论(0) 推荐(0) 编辑
摘要:将json格式数据写入到csv格式的文件中,方便使用excle打开进行查看 阅读全文
posted @ 2018-07-15 15:52 lowmanisbusy 阅读(3535) 评论(0) 推荐(0) 编辑
摘要:上半部分内容链接 : https://www.cnblogs.com/lowmanisbusy/p/9069330.html 四.json和jsonpath的使用 JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式,它使得人们很容易的进行阅读和编写。同时也方 阅读全文
posted @ 2018-06-25 20:48 lowmanisbusy 阅读(5248) 评论(0) 推荐(1) 编辑
摘要:一.数据类型及解析方式 一般来讲对我们而言,需要抓取的是某个网站或者某个应用的内容,提取有用的价值。内容一般分为两部分,非结构化的数据 和 结构化的数据。 非结构化数据:先有数据,再有结构, 结构化数据:先有结构、再有数据 不同类型的数据,我们需要采用不同的方式来处理。 1.非结构化的数据处理 文本 阅读全文
posted @ 2018-05-21 21:06 lowmanisbusy 阅读(13832) 评论(2) 推荐(1) 编辑
摘要:必须需要了解的: 1.requests请求的底层实现其实就是urllib3 2.Requests的文档非常完备,中文文档也相当不错.Requests能完全满足当前网络的需求,支持Python 2.6-3.5,而且能在PyPy下完美运行。 3.开源地址:https://github.com/kenne 阅读全文
posted @ 2018-05-21 00:48 lowmanisbusy 阅读(2074) 评论(2) 推荐(1) 编辑
摘要:一.基本原理 Fiddler 是以代理web服务器的形式工作的,它使用代理地址:127.0.0.1,端口:8888 二.Fiddler抓取https设置 1.启动Fiddler,打开菜单栏中的 Tools > Telerik Fiddler Options,打开“Fiddler Options”对话 阅读全文
posted @ 2018-05-20 20:56 lowmanisbusy 阅读(758) 评论(0) 推荐(0) 编辑