01 2020 档案

摘要:1. scrapy框架简介 Scrapy是一个为爬取网站数据、提取结构性数据而设计的应用程序框架,它可以应用在广泛领域:Scrapy 常应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。通常我们可以很简单的通过 Scrapy 框架实现一个爬虫,抓取指定网站的内容或图片。 尽管Scrapy原 阅读全文
posted @ 2020-01-17 20:09 菜鸟学小白 阅读(2630) 评论(0) 推荐(0) 编辑
摘要:1. 相关概念 1. selenium模块 是一个基于浏览器自动化的模块 2. 与爬虫之间的关联 便捷的捕获到动态加载到的数据(可见即可得) 实现模拟登陆 3.环境安装 pip3 install selenium 简单演示 from selenium import webdriver from ti 阅读全文
posted @ 2020-01-16 20:51 菜鸟学小白 阅读(489) 评论(0) 推荐(0) 编辑
摘要:1.基础概念 1.协程 - 在函数(特殊的函数)定义的时候,如果使用了async修饰的话,则改变函数调用后返回一个协程对象,并且函数内部的实现语句不会被立即执行。 2.任务对象 - 任务对象就是对协程对象的进一步封装,任务对象==高级的协程对象==特殊的函数 - 任务对象必须要注册到事件循环对象中 阅读全文
posted @ 2020-01-16 15:32 菜鸟学小白 阅读(499) 评论(0) 推荐(0) 编辑
摘要:1. time 和时间相关的 1. time模块的三大对象 时间戳 字符串 时间对象 2. 封装了获取时间戳和字符串形式的时间的一些方法 time.time(): 获取时间戳 time.gmtime():获取格式化的时间对象,是由九个字段组成的 time.localtime():获取当地时间对象,是 阅读全文
posted @ 2020-01-13 21:16 菜鸟学小白 阅读(279) 评论(0) 推荐(0) 编辑
摘要:1.模块是什么? 举例 :抖音20万行代码全部放在一个py文件中? 为什么不行? 代码太多,读取代码耗时太长 代码不容易维护 所以如何去做? 一个py文件拆分成100个文件, 模块就是一个py文件,常用的相似的功能集合。 2.为什么要有模块? 拿来主义,提高开发效率 便于管理维护, 什么是脚本? 脚 阅读全文
posted @ 2020-01-13 15:21 菜鸟学小白 阅读(195) 评论(0) 推荐(0) 编辑
摘要:1.代理 代理服务器,可以接受请求然后将其转发 1.匿名度 1. 高匿:不知道你使用了代理,也不知道你的真实ip 2. 匿名: 知道你使用了代理,但是不知道你的真实ip 3. 透明:知道你使用了代理并且知道你的真实ip 2.类型 http https 3.免费代理的网站 - http://www.g 阅读全文
posted @ 2020-01-11 17:14 菜鸟学小白 阅读(481) 评论(0) 推荐(0) 编辑
摘要:1.数据解析 1.数据解析的作用 可以帮助我们实现聚焦爬虫 2.数据解析的实现方式 正则 bs4 xpath pyquery 3.数据解析的通用原理 问题:1.聚焦爬虫爬取的数据是存储的在哪里 都被存储在了相关的标签之中和相关标签的属性中 1.定位标签 2.取文本或者取属性 requests模块与u 阅读全文
posted @ 2020-01-07 14:24 菜鸟学小白 阅读(229) 评论(0) 推荐(0) 编辑
摘要:1.爬虫相关概念 1.什么是爬虫 就是通过编写程序模拟浏览器上网,然后让其去互联网上爬取数据的过程 2.爬虫的分类 通用爬虫 抓取互联网中的一整张页面数据 聚焦爬虫 抓取页面中局部数据 增量式爬虫 用来检测网站数据更新的情况,以便爬取到网站最新出来的数据 3.爬虫合法吗 爬虫数据的行为风险的体现 爬 阅读全文
posted @ 2020-01-06 16:01 菜鸟学小白 阅读(215) 评论(0) 推荐(0) 编辑

ヾ(≧O≦)〃嗷~