摘要:
[toc] 昨日回顾 scrapy高级使用及分布式 1.爬虫件参数 2.提升scrapy爬取的效率 3.scrapy的中间件(下载中间件) process_exception process_request process_response 4.scrapy中使用selenium 5.去重规则 如何 阅读全文
摘要:
[toc] 昨日回顾 scrapy框架 1.介绍 Scrapy 是一个基于 Twisted 的异步处理框架,是纯 Python 实现的爬虫框架,其架构清晰,模块之间的耦合程度低,可扩展性极强,可以灵活完成各种需求。我们只需要定制开发几个模块就可以轻松实现一个爬虫。 1.1 框架的生命周期 它可以分为 阅读全文
摘要:
[toc] 昨日回顾 python 1 可以发送任意请求get,post,delete。。。 requests.get() requests.post() 2 携带头信息 user agent referer cookie(cookie池) requests.get(headers={}) 3 co 阅读全文
摘要:
[toc] 上周回顾 linux命令 1. 网络相关 hostname ping ping静数据包发送用户指定的地址,当包被接受,目标机器发送返回数据包 ifconfig 查看用户网络配置,他显示当前网络设配配置 netstat Centos7默认不安装netstat组件,需要使用时需要自己安装。 阅读全文
摘要:
[toc] 昨日回顾 matplotlib jupyter中使用matplotlib的方法 介绍 Matplotlib是Python的一个2D图形库,能够生成各种格式的图形(诸如折线图,散点图,直方图等等),界面可交互(可以利用鼠标对生成图形进行点击操作),同时该2D图形库跨平台,即既可以在Pyth 阅读全文
摘要:
[toc] 数据分析 py的就业方向 数据分析历史 数据分析的介绍 数据分析的步骤 提出需求 数据的来源 开始数据的清洗 得出结论 常见数据分析库 写代码的工具 Jupyter notebook numpy 简介 使用numpy进行数据分析 NumPy 是一个运行速度非常快的数学库,主要用于数组计算 阅读全文
摘要:
[toc] 昨日回顾 scrapy高级使用及分布式 1.爬虫件参数 2.提升scrapy爬取的效率 3.scrapy的中间件(下载中间件) process_exception process_request process_response 4.scrapy中使用selenium 5.去重规则 如何 阅读全文
摘要:
[toc] 昨日回顾 python 1 网页解析(html、xml) 2 把网页信息(字符串),构造成一个soup对象 3 遍历文档树(从上往下 通过 . 的方式)速度快,只能找到最近的一个 4 查找文档 (全局取搜)find find_all 返回的对象可以继续查找(tag对象) 中方式(字符串, 阅读全文
摘要:
[toc] 爬虫 爬虫介绍 爬取的都是http/https的数据,移动端的数据,发送请求获取数据,并不是只有python能做爬虫(任何语言都可以做爬虫),python比较便捷,模块多,上手快,爬虫框架scrapy 3.2 而爬虫程序要做的就是: 模拟浏览器发送请求 下载网页代码 只提取有用的数据 存 阅读全文
摘要:
[toc] 请求上下文解析 简介 请求上下文 在flask 0.9版本之前,flask中只有“请求上下文”的概念。那什么是请求上下文呢? 我们先回忆一下在写flask程序的时候,经常会碰到直接调用像current_app、request、session、g等变量。这些变量看起来似乎是全局变量,但是实 阅读全文