摘要:
前情提要: 数据分析:把一些看似杂乱无章的数据背后的信息提炼出来,总结出所研究 对象的内在规律 数据分析的三剑客: numpy,pandas,matplotlb numpy是python语言的一个扩展程序库,支持大量的维度数组与矩阵的运算 ,此外,也针对数组的运算,提供了大量的数学函数库 一: 创建 阅读全文
摘要:
以下两段代码运行之后结果是否相同?为什么? 第一段 第二段 写出下面代码的输出内容: 答案 首先我们知道filter的用法filter(function, iterable)其中还function -- 判断函数。iterable -- 可迭代对象。返回 True 或 False但是这个题比较坑 n 阅读全文
摘要:
前情提要: 一:图片懒加载(面对图片懒加载怎么办) ---用selenium设置图片加载的位置 --- 分析懒加载的属性,直接获取 二: 如何提高scrapy的爬取效率 增加并发:默认scrapy开启的并发线程为32个,可以适当进行增加。在settings配置文件中修改CONCURRENT_REQU 阅读全文
摘要:
前情提要: 补充知识点: ua请求头库的使用 scrapy 的中间件使用 一: 下载中间件的使用 -:作用:批量拦截请求头和响应 -:拦截请求: 1:串改请求头信息(User-Agent) 2:设置相关请求对象的代理ip(process_exception) 二: 爬虫中间件的使用 一:下载中间件的 阅读全文
摘要:
前情提要: 一:scrapy 爬取妹子网 全站 知识点: scrapy回调函数的使用 二: scrapy的各个组件之间的关系解析 Scrapy 框架 Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛。 框架的力量,用户只需要定制开发几个模块就可以轻 阅读全文
摘要:
单例模式: 单例模式是一种常用的软件设计模式。在它的核心结构中只包含一个被称为单例类的特殊类。通过单例模式可以保证系统中一个类只有一个实例而且该实例易于外界访问,从而方便对实例个数的控制并节约系统资源。如果希望在系统中某个类的对象只能存在一个,单例模式是最好的解决方案。 __new__()在__in 阅读全文
摘要:
前情提要:校花网爬取,并进行数据持久化 数据持久化操作 --编码流程: 1:数据解析 2:封装item 类 3: 将解析的数据存储到实例化好的item 对象中 4:提交item 5:管道接收item然后对item进行io操作 6:开启管道 -- 主意事项: -将同一份数据存储到不同平台中: -: 管 阅读全文
摘要:
前情提要: scrapy框架 - 框架:具有很多功能且具有很强通用性的一个项目模板。 - 环境换装: Linux: pip3 install scrapy Windows: a. pip3 install wheel b. 下载twisted http://www.lfd.uci.edu/~gohl 阅读全文
摘要:
前情提要: 首先膜拜loco大佬 肯定有人像我一样.不会异步,发一下. 一:性能比对 多进程,多线程,(这里不建议使用,太消耗性能) 进程池和线程池 (可以适当的使用) 单线程+异步协程 (推荐使用) 二:案例演示 1->1: 普通的啥也不用的 1->2: 2->1: 使用线程池 2->2:结果 三 阅读全文