2020 年 3月 11 日随笔档案 - fwzzz

2020年3月11日

20200227 scrapy框架

摘要： [toc] 昨日回顾 scrapy框架 1.介绍 Scrapy 是一个基于 Twisted 的异步处理框架，是纯 Python 实现的爬虫框架，其架构清晰，模块之间的耦合程度低，可扩展性极强，可以灵活完成各种需求。我们只需要定制开发几个模块就可以轻松实现一个爬虫。 1.1 框架的生命周期它可以分为阅读全文

posted @ 2020-03-11 09:33 fwzzz 阅读(335) 评论(0) 推荐(0) 编辑

20200225 爬虫-bs4使用及简单代理破解验证码

摘要： [toc] 昨日回顾 python 1 可以发送任意请求get，post，delete。。。 requests.get() requests.post() 2 携带头信息 user agent referer cookie(cookie池) requests.get(headers={}) 3 co 阅读全文

posted @ 2020-03-11 09:31 fwzzz 阅读(396) 评论(0) 推荐(0) 编辑

20200309 Linux命令

摘要： [toc] 上周回顾 linux命令 1. 网络相关 hostname ping ping静数据包发送用户指定的地址,当包被接受,目标机器发送返回数据包 ifconfig 查看用户网络配置,他显示当前网络设配配置 netstat Centos7默认不安装netstat组件，需要使用时需要自己安装。阅读全文

posted @ 2020-03-11 09:27 fwzzz 阅读(314) 评论(0) 推荐(0) 编辑

20200304 matplotlib图表使用及金融基础知识

摘要： [toc] 昨日回顾 matplotlib jupyter中使用matplotlib的方法介绍 Matplotlib是Python的一个2D图形库，能够生成各种格式的图形（诸如折线图，散点图，直方图等等），界面可交互（可以利用鼠标对生成图形进行点击操作），同时该2D图形库跨平台，即既可以在Pyth 阅读全文

posted @ 2020-03-11 09:26 fwzzz 阅读(543) 评论(0) 推荐(0) 编辑

20200302 数据分析之numpy以及Jupyter

摘要： [toc] 数据分析 py的就业方向数据分析历史数据分析的介绍数据分析的步骤提出需求数据的来源开始数据的清洗得出结论常见数据分析库写代码的工具 Jupyter notebook numpy 简介使用numpy进行数据分析 NumPy 是一个运行速度非常快的数学库，主要用于数组计算阅读全文

posted @ 2020-03-11 09:25 fwzzz 阅读(673) 评论(0) 推荐(0) 编辑

20200228 scrapy高级使用及分布式

摘要： [toc] 昨日回顾 scrapy高级使用及分布式 1.爬虫件参数 2.提升scrapy爬取的效率 3.scrapy的中间件(下载中间件) process_exception process_request process_response 4.scrapy中使用selenium 5.去重规则如何阅读全文

posted @ 2020-03-11 09:24 fwzzz 阅读(389) 评论(0) 推荐(0) 编辑

20200226 请求库selenium

摘要： [toc] 昨日回顾 python 1 网页解析（html、xml） 2 把网页信息（字符串），构造成一个soup对象 3 遍历文档树（从上往下通过 . 的方式）速度快，只能找到最近的一个 4 查找文档（全局取搜）find find_all 返回的对象可以继续查找（tag对象）中方式（字符串，阅读全文

posted @ 2020-03-11 09:23 fwzzz 阅读(415) 评论(0) 推荐(0) 编辑

20200224 爬虫-requests模块

摘要： [toc] 爬虫爬虫介绍爬取的都是http/https的数据，移动端的数据，发送请求获取数据，并不是只有python能做爬虫（任何语言都可以做爬虫），python比较便捷，模块多，上手快，爬虫框架scrapy 3.2 而爬虫程序要做的就是：模拟浏览器发送请求下载网页代码只提取有用的数据存阅读全文

posted @ 2020-03-11 09:22 fwzzz 阅读(332) 评论(0) 推荐(0) 编辑

fwzzz

公告