2020 年 1月随笔档案 - 菜鸟学小白

scrapy框架

摘要：1. scrapy框架简介 Scrapy是一个为爬取网站数据、提取结构性数据而设计的应用程序框架，它可以应用在广泛领域：Scrapy 常应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。通常我们可以很简单的通过 Scrapy 框架实现一个爬虫，抓取指定网站的内容或图片。尽管Scrapy原阅读全文

posted @ 2020-01-17 20:09 菜鸟学小白阅读(2630) 评论(0) 推荐(0) 编辑

selenium模块在爬虫中的应用

摘要：1. 相关概念 1. selenium模块是一个基于浏览器自动化的模块 2. 与爬虫之间的关联便捷的捕获到动态加载到的数据（可见即可得）实现模拟登陆 3.环境安装 pip3 install selenium 简单演示 from selenium import webdriver from ti 阅读全文

posted @ 2020-01-16 20:51 菜鸟学小白阅读(489) 评论(0) 推荐(0) 编辑

单线程+多任务异步协程

摘要：1.基础概念 1.协程 - 在函数（特殊的函数）定义的时候，如果使用了async修饰的话，则改变函数调用后返回一个协程对象，并且函数内部的实现语句不会被立即执行。 2.任务对象 - 任务对象就是对协程对象的进一步封装，任务对象==高级的协程对象==特殊的函数 - 任务对象必须要注册到事件循环对象中阅读全文

posted @ 2020-01-16 15:32 菜鸟学小白阅读(499) 评论(0) 推荐(0) 编辑

常用模块time/datetime/os/sys/json/random/hashlib

摘要：1. time 和时间相关的 1. time模块的三大对象时间戳字符串时间对象 2. 封装了获取时间戳和字符串形式的时间的一些方法 time.time()：获取时间戳 time.gmtime()：获取格式化的时间对象，是由九个字段组成的 time.localtime()：获取当地时间对象，是阅读全文

posted @ 2020-01-13 21:16 菜鸟学小白阅读(279) 评论(0) 推荐(0) 编辑

模块的初始

摘要：1.模块是什么？举例：抖音20万行代码全部放在一个py文件中？为什么不行? 代码太多，读取代码耗时太长代码不容易维护所以如何去做？一个py文件拆分成100个文件，模块就是一个py文件，常用的相似的功能集合。 2.为什么要有模块？拿来主义，提高开发效率便于管理维护，什么是脚本? 脚阅读全文

posted @ 2020-01-13 15:21 菜鸟学小白阅读(195) 评论(0) 推荐(0) 编辑

requests模块的高级用法

摘要：1.代理代理服务器，可以接受请求然后将其转发 1.匿名度 1. 高匿:不知道你使用了代理,也不知道你的真实ip 2. 匿名: 知道你使用了代理,但是不知道你的真实ip 3. 透明:知道你使用了代理并且知道你的真实ip 2.类型 http https 3.免费代理的网站 - http://www.g 阅读全文

posted @ 2020-01-11 17:14 菜鸟学小白阅读(481) 评论(0) 推荐(0) 编辑

爬虫数据解析方式

摘要：1.数据解析 1.数据解析的作用可以帮助我们实现聚焦爬虫 2.数据解析的实现方式正则 bs4 xpath pyquery 3.数据解析的通用原理问题：1.聚焦爬虫爬取的数据是存储的在哪里都被存储在了相关的标签之中和相关标签的属性中 1.定位标签 2.取文本或者取属性 requests模块与u 阅读全文

posted @ 2020-01-07 14:24 菜鸟学小白阅读(229) 评论(0) 推荐(0) 编辑

爬虫的初始和requests模块基础用法

摘要：1.爬虫相关概念 1.什么是爬虫就是通过编写程序模拟浏览器上网,然后让其去互联网上爬取数据的过程 2.爬虫的分类通用爬虫抓取互联网中的一整张页面数据聚焦爬虫抓取页面中局部数据增量式爬虫用来检测网站数据更新的情况,以便爬取到网站最新出来的数据 3.爬虫合法吗爬虫数据的行为风险的体现爬阅读全文

posted @ 2020-01-06 16:01 菜鸟学小白阅读(215) 评论(0) 推荐(0) 编辑

01 2020 档案

公告