01 2020 档案
摘要:1. scrapy框架简介 Scrapy是一个为爬取网站数据、提取结构性数据而设计的应用程序框架,它可以应用在广泛领域:Scrapy 常应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。通常我们可以很简单的通过 Scrapy 框架实现一个爬虫,抓取指定网站的内容或图片。 尽管Scrapy原
阅读全文
摘要:1. 相关概念 1. selenium模块 是一个基于浏览器自动化的模块 2. 与爬虫之间的关联 便捷的捕获到动态加载到的数据(可见即可得) 实现模拟登陆 3.环境安装 pip3 install selenium 简单演示 from selenium import webdriver from ti
阅读全文
摘要:1.基础概念 1.协程 - 在函数(特殊的函数)定义的时候,如果使用了async修饰的话,则改变函数调用后返回一个协程对象,并且函数内部的实现语句不会被立即执行。 2.任务对象 - 任务对象就是对协程对象的进一步封装,任务对象==高级的协程对象==特殊的函数 - 任务对象必须要注册到事件循环对象中
阅读全文
摘要:1. time 和时间相关的 1. time模块的三大对象 时间戳 字符串 时间对象 2. 封装了获取时间戳和字符串形式的时间的一些方法 time.time(): 获取时间戳 time.gmtime():获取格式化的时间对象,是由九个字段组成的 time.localtime():获取当地时间对象,是
阅读全文
摘要:1.模块是什么? 举例 :抖音20万行代码全部放在一个py文件中? 为什么不行? 代码太多,读取代码耗时太长 代码不容易维护 所以如何去做? 一个py文件拆分成100个文件, 模块就是一个py文件,常用的相似的功能集合。 2.为什么要有模块? 拿来主义,提高开发效率 便于管理维护, 什么是脚本? 脚
阅读全文
摘要:1.代理 代理服务器,可以接受请求然后将其转发 1.匿名度 1. 高匿:不知道你使用了代理,也不知道你的真实ip 2. 匿名: 知道你使用了代理,但是不知道你的真实ip 3. 透明:知道你使用了代理并且知道你的真实ip 2.类型 http https 3.免费代理的网站 - http://www.g
阅读全文
摘要:1.数据解析 1.数据解析的作用 可以帮助我们实现聚焦爬虫 2.数据解析的实现方式 正则 bs4 xpath pyquery 3.数据解析的通用原理 问题:1.聚焦爬虫爬取的数据是存储的在哪里 都被存储在了相关的标签之中和相关标签的属性中 1.定位标签 2.取文本或者取属性 requests模块与u
阅读全文
摘要:1.爬虫相关概念 1.什么是爬虫 就是通过编写程序模拟浏览器上网,然后让其去互联网上爬取数据的过程 2.爬虫的分类 通用爬虫 抓取互联网中的一整张页面数据 聚焦爬虫 抓取页面中局部数据 增量式爬虫 用来检测网站数据更新的情况,以便爬取到网站最新出来的数据 3.爬虫合法吗 爬虫数据的行为风险的体现 爬
阅读全文