09 2019 档案
摘要:一:尺寸相同的图片拼接 二:尺寸不相同的图片进行拼接 例如:将这种图,拼接成一幅完整的图
阅读全文
摘要:一:分析过程:fidder + chrome开发者工具 1:输入nba跳转的页面,每页显示10条相关公众号的信息 2:分析网站得到每条标题的详情页链接地址在: 3,请求上图中的url,会返回一段js代码,js代码的作用是,构造一个的新的url,并对新的url进行了请求。 认真分析一下这段js代码,除
阅读全文
摘要:一:读取数据的函数 1.读取csv文件
阅读全文
摘要:一:代理池维护的模块 1. 抓取模块Crawl,负责从代理网站上抓取代理 抓取模块 2. 获取代理Getter,负责获取抓取模块返回的值,并判断是否超过存储模块的最大容量。 获取模块 3.存储模块Redis,负责将抓取的每一条代理存放至有序集合中。 存储模块 4.测试模块Tester,负责异步测试每
阅读全文
摘要:一:pandas 两种数据结构:series和dataframe series:索引(索引自动生成)和标签(人为定义)组成 返回一个对象 指定索引 通过索引取值 保留索引值的链接 series看做一个字典,它是索引到数据值的一个映射 python字典直接创建series 指定索引的顺序展示字典 缺少
阅读全文
摘要:一:json模块 json模块的作用就是讲json字符串("{"a":1,"b":1}")和python能够识别的字典进行相互转换。 结论:loads: josn字符串 >和python字典之间的转换 二:picke模块:将字节和python对象之间进行转换 import pickleimport
阅读全文
摘要:一:Numpy numpy处理数据快的原因是:在一个连续的内存块中取存取数据。 1. numpy中的ndarray:一种多维的数组对象,是一种快速灵活的大数据容器。 创建ndarray:数组的创建最简单的办法就是使用array函数,它接收一切序列型的对象,其中也包括数组。 查看数组的维度和形状 其他
阅读全文
摘要:# TODO selenium已经被检测出来 import random import re import time from selenium import webdriver from selenium.webdriver.common.by import By from selenium.we
阅读全文
摘要:1. 词带的简单解释: 每一个词出现了多少次,缺点是不知道顺序 2.seq2seq自然语言处理的核心 RNN: 一对一:输入一个,输出一个 一对多:输入一个,输出多个 多对一:输入多个,输出一个 多对多:输入多个,输出多个 原始数组: 改变一次的数组: 改变两次的数组: 改变三次的数组 结果输出:
阅读全文
摘要:一. urllib库中将字典转化为url的查询参数 二.请求异常的处理,以及内部的判断逻辑 1.返回的json数据为空:原因是requests的请求对象没有加请求头和cookies import requests from urllib.parse import urlencode def get_
阅读全文
摘要:一:为什么要维护cookie 1.登录才能爬取内容 2.爬取频繁会被封号。 3.需要维护多个账号的cookie,实现大规模抓取 二:cookies的要求 1.自动登录更新 2.定期筛选验证 3.提供外部接口 三:cookies池的架构 # TODO 崔庆才 基于Flask和redis动态维护cook
阅读全文
摘要:1.python中深拷贝和浅拷贝的理解 自己理解:浅拷贝,只是拷贝引用,不开辟新的空间存储拷贝内容。 深拷贝,就是在内存中,开辟一个新的内存地址,将拷贝内容放到新的地址中去。 验证:对于数字,字符串,元祖这种不可变类型的数据,深拷贝和浅拷贝拷贝的是内存地址的引用。 不可变类型 import copy
阅读全文
摘要:一:环境准备 pycharm:专业版(windows) docker ce 免费版(ubantu16.04) os: os:防火墙 二:开发流程 pycharm中开发环境搭建的工作原理: 1. pycharm中配置docker环境 docker是基于c/s的架构,ubantu上的client链接ub
阅读全文
摘要:1.简单案例:预测男女,根据身高,体重,鞋码 2.图片分类 图片分类结果绘图 计算机进行分类的依据:像和不像 那么什么叫像,什么叫不像呢?怎么定义呢? 人类是如何判断两个物种像不像的问题? 获取数据集,从哪里来?测量标注 根据已经有的特征值,进行分析,筛选最能代表物种性质的特征 根据特征值,训练模型
阅读全文
摘要:1. 进程和线程的区别 线程是运行在进程里面的,进程可以包含多个线程,一个线程只能属于一个进程。 线程会存在资源竞争的问题,因为数据共享是用的全局变量,进程之间的数据共享用的是内存。 进程消耗资源大,多用于计算密集型,线程消耗资源小,多用于IO密集型。
阅读全文
摘要:1. 去重的场景 url去重:防止发送重复请求 数据文本去重:防止储存重复数据 2.数据去重的原理 什么类型的数据: 重复的依据是什么: 例如: data1 = ["123",123,"456","qwe","qwe"] 列表去重方法: 例如: data1 = ["123",123,"456","q
阅读全文
摘要:恢复内容开始 1.scrapy框架 每一步的解释: step1:引擎从爬虫器获取要爬行的初始请求。 step2:引擎在调度程序中调度请求,引擎把这个初始请求传递给调度器,并向调度器索要下一个请求。 step3:调度程序将下一个请求返回给引擎。 step4:引擎通过下载器中间件将请求发送给下载器。 s
阅读全文
摘要:1.简单的分布式流程图 分布式: 多进程分布式爬虫的案例: 模块共6个:控制管理类(control_manager.py),网页内容下载类(download.py),页面解析类(Htmparse.py),数据写入类(save_manager.py),url管理类(url_manager.py),爬虫
阅读全文
摘要:携程爬取阳光问帖子:进行了简单的数据存储,数据量共145226条,爬取时间为:3.65小时,实际时间感觉要多于统计时间。 代码如下: 复习协程的知识: 多线程会抢抢夺公共资源,因此会造成公共资源的不安全,需要通过线程锁进行解决,那么多个携程为什么不存在这个情况呢? 因为多个协程也是在一个线程里面进行
阅读全文
摘要:1.什么是docker 简单的理解:docker相当于vmvare,容器相当于多个虚拟机,vmvare上可以运行ubantu16.04的虚拟机,也可以运行centos虚拟机,还可以运行redhat虚拟机。 容器:完全隔离的环境,例如vmvare上两个虚拟机是相互隔离的。每一个虚拟机都得安装操作系统,
阅读全文
摘要:1. mongodb是什么? NoSQL 非关系型数据库,主要用于数据的海量存储。分为server数据存储端和client数据操作端。 关系型与非关系型数据库的区别? sql:数据库--表--数据 nosql:数据库 集合--文档 2.mongoddb优势 1. 扩展性2. 大数据型,高性能3. 灵
阅读全文