摘要:
1. Python连接elasticserach python连接elasticsearch有一下几种连接方式 pip3 instal elasticsearch from elasticsearch import Elasticsearch es = Elasticsearch() # 默认连接本 阅读全文
摘要:
1.线程介绍 1.什么是线程 线程(Thread)也叫轻量级进程,是操作系统能够进行运算调度的最小单位,它被包涵在进程之中,是进程中的实际运作单位。线程自己不拥有系统资源,只拥有一点儿在运行中必不可少的资源,但它可与同属一个进程的其它线程共享进程所拥有的全部资源。一个线程可以创建和撤消另一个线程,同 阅读全文
摘要:
1.进程的相关的概念 1.进程的简单初始 进程 是计算机的最小的资源分配单位,每一个程序在运行起来的时候需要给分配一些内存 一个运行的程序 在操作系统中用于pid来标识一个进程 线程 是计算机能够被CPU调度的最小单元,实际执行具体编译解释之后的代码的是线程,所以CPU执行的是解释之后的线程中的代码 阅读全文
摘要:
1. scrapy框架简介 Scrapy是一个为爬取网站数据、提取结构性数据而设计的应用程序框架,它可以应用在广泛领域:Scrapy 常应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。通常我们可以很简单的通过 Scrapy 框架实现一个爬虫,抓取指定网站的内容或图片。 尽管Scrapy原 阅读全文
摘要:
1. 相关概念 1. selenium模块 是一个基于浏览器自动化的模块 2. 与爬虫之间的关联 便捷的捕获到动态加载到的数据(可见即可得) 实现模拟登陆 3.环境安装 pip3 install selenium 简单演示 from selenium import webdriver from ti 阅读全文
摘要:
1.基础概念 1.协程 - 在函数(特殊的函数)定义的时候,如果使用了async修饰的话,则改变函数调用后返回一个协程对象,并且函数内部的实现语句不会被立即执行。 2.任务对象 - 任务对象就是对协程对象的进一步封装,任务对象==高级的协程对象==特殊的函数 - 任务对象必须要注册到事件循环对象中 阅读全文
摘要:
1. time 和时间相关的 1. time模块的三大对象 时间戳 字符串 时间对象 2. 封装了获取时间戳和字符串形式的时间的一些方法 time.time(): 获取时间戳 time.gmtime():获取格式化的时间对象,是由九个字段组成的 time.localtime():获取当地时间对象,是 阅读全文
摘要:
1.模块是什么? 举例 :抖音20万行代码全部放在一个py文件中? 为什么不行? 代码太多,读取代码耗时太长 代码不容易维护 所以如何去做? 一个py文件拆分成100个文件, 模块就是一个py文件,常用的相似的功能集合。 2.为什么要有模块? 拿来主义,提高开发效率 便于管理维护, 什么是脚本? 脚 阅读全文
摘要:
1.代理 代理服务器,可以接受请求然后将其转发 1.匿名度 1. 高匿:不知道你使用了代理,也不知道你的真实ip 2. 匿名: 知道你使用了代理,但是不知道你的真实ip 3. 透明:知道你使用了代理并且知道你的真实ip 2.类型 http https 3.免费代理的网站 - http://www.g 阅读全文
摘要:
1.数据解析 1.数据解析的作用 可以帮助我们实现聚焦爬虫 2.数据解析的实现方式 正则 bs4 xpath pyquery 3.数据解析的通用原理 问题:1.聚焦爬虫爬取的数据是存储的在哪里 都被存储在了相关的标签之中和相关标签的属性中 1.定位标签 2.取文本或者取属性 requests模块与u 阅读全文