摘要:
mysql的存储引擎 三种存储方式 InnoDB (默认) 一个文件存储表结构,一个存储数据和目录(索引) memory 一个文件存储数据结构,数据存储在内存(差的快,早期都是这种存储方式,现在有redis了) MyIsam 一个文件表结构,一个存储数据,还有一个放目录(索引) 数据库中数据的存储方 阅读全文
摘要:
一、变量与对象 关系图如下: 1、变量,通过变量指针引用对象 变量指针指向具体对象的内存空间,取对象的值。 2、对象,类型已知,每个对象都包含一个头部信息(头部信息:类型标识符和引用计数器) 注意 变量名没有类型,类型属于对象(因为变量引用对象,所以类型随对象),变量引用什么类型的对象,变量就是什么 阅读全文
摘要:
哈希表(散列表) 一、概述 根据设定的 哈希函数H(key) 和 处理冲突的方法 将一组关键字影像到一个有限的连续的地址集(区间)上,并以关键字在地址集中的“像”作为记录在表中的存储位置,这种表便成为 哈希表 ,这一映像过程称为哈希造表或 散列 ,所得存储位置称 哈希地址 或 散列地址 。 上面所提 阅读全文
摘要:
一.封装 把很多数据封装到⼀个对象中. 把固定功能的代码封装到⼀个代码块, 函数, 对象, 打包成模块. 这都属于封装的思想. 具体的情况具体分析. 比如. 你写了⼀个很⽜B的函数. 那这个也可以被称为封装. 在⾯向对象思想中. 是把⼀些看似⽆关紧要的内容组合到⼀起统⼀进⾏存储和使⽤. 这就是封装. 阅读全文
摘要:
一 什么是面向对象的继承 比较官方的说法就是: 继承(英语:inheritance)是面向对象软件技术当中的一个概念。如果一个类别A“继承自”另一个类别B,就把这个A称为“B的子类别”,而把B称为“A的父类别”也可以称“B是A的超类”。继承可以使得子类别具有父类别的各种属性和方法,而不需要再次编写相 阅读全文
摘要:
一.Python 类的空间问题 1.1 何处可以添加对象属性 总结:对象的属性不仅可以在__init__里面添加,还可以在类的其他方法或者类的外面添加。 1.2 何处可以添加类的静态属性 总结:类的属性不仅可以在类内部添加,还可以在类的外部添加。 1.3 对象如何找到类的属性 之前咱们都学习过,实例 阅读全文
摘要:
一.面向过程与函数式编程 1.1 面向过程编程vs函数式编程 在没了解面向对象之前,写的代码都是面向过程式编程 在我们学习函数后就是在面向函数编程 通过对比可知:函数编程较之面向过程编程最明显的两个特点: 1,减少重复的代码。 2,增强代码的可读性。 二.面向对象初识 2.1 函数式编程vs面向对象 阅读全文
摘要:
增量式爬取 概念:监控网站数据更新的情况,以便于爬取到最新更新出来的数据。 实现核心:去重 实战中去重的方式:记录表 记录表需要记录什么?记录的一定是爬取过的相关信息。 爬取过的相关信息:例如每一步电影的详情页的url 只需要使某一组数据,改组数据可以作为该部电影的唯一标识即可,刚好电影详情页的ur 阅读全文
摘要:
分布式爬虫 实现方式:scrapy+redis(scrapy结合这scrapy redis组件) 原生的scrapy框架是无法实现分布式 需要搭建一个分布式的机群,让后让机群中的每一台电脑执行同一组程序,让其对同一组资源 进行联合且分布的数据爬取。 为什么原生的scrapy框架无法实现分布式 1.调 阅读全文
摘要:
crawlscrapy 其实他是Spider的一个子类,Spider爬虫文件中爬虫类的父类 子类的功能一定是多余父类的 作用:被用作与专业实现全站数据爬取 将一个页面下所有页面对应的数据进行爬取 基本使用: 1.创建一个工程 2.cd 工程 3.创建一个基于CrawlSpider的爬虫文件 scra 阅读全文