摘要: python全栈开发学习笔记 第一章 计算机基础 第二章Python入门 第三章数据类型 第四章文件操作 第五章函数 第六章 模块 第七章 面向对象 第八章 网络编程 第九章 并发编程 第十章 数据库 第十一章 前端开发-html 第十一章 前端开发-css 附加:js特效 15个小demo 第十一 阅读全文
posted @ 2020-04-08 18:11 hanfe1 阅读(500) 评论(0) 推荐(0) 编辑
摘要: 爬虫相关笔记 01 爬虫简介 02 requests模块 03 数据解析 04 验证码识别 05 request高级操作 06 高性能异步爬虫 07 selenium模块基本使用 08 scrapy框架 新 scrapy框架 09 M3U8流视频数据爬虫 10 MongoDB数据存储 11 urli 阅读全文
posted @ 2020-04-08 17:59 hanfe1 阅读(1609) 评论(0) 推荐(0) 编辑
摘要: 简介 selenium 是一种浏览器自动化的工具,所谓的自动化是指,我们可以通过代码的形式制定一系列的行为动作,然后执行代码,这些动作就会同步触发在浏览器中。 环境安装 下载安装selenium:pip install selenium 下载浏览器驱动程序: http://chromedriver. 阅读全文
posted @ 2020-04-08 17:53 hanfe1 阅读(667) 评论(0) 推荐(0) 编辑
摘要: 06 高性能异步爬虫 高性能异步爬虫 线程and线程池 引入 很多同学对于异步这个概念只是停留在了“听说很NB”的认知层面上,很少有人能够在项目中真正的使用异步实现高性能的相关操作。本节课,咱们就一起来学习一下,爬虫中如何使用异步实现高性能的数据爬取操作。 背景 其实爬虫的本质就是client发请求 阅读全文
posted @ 2020-04-08 17:52 hanfe1 阅读(465) 评论(0) 推荐(0) 编辑
摘要: 简历模板下载拓展 import requests from lxml import etree import os headers = { 'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 阅读全文
posted @ 2020-04-08 17:50 hanfe1 阅读(881) 评论(0) 推荐(0) 编辑
摘要: 04 验证码识别 what is 验证码? 是一种区分用户是计算机还是人的公共全自动程序。验证码可以防止:恶意破解密码、刷票、论坛灌水,有效防止某个黑客对某一个特定注册用户用特定程序暴力破解方式进行不断的登陆尝试,实际上用验证码是现在很多网站通行的方式,我们利用比较简易的方式实现了这个功能。 验证码 阅读全文
posted @ 2020-04-08 17:46 hanfe1 阅读(493) 评论(0) 推荐(0) 编辑
摘要: 03 数据解析 引入 回顾requests模块实现数据爬取的流程 指定url 发起请求 获取响应数据 持久化存储 其实,在上述流程中还需要较为重要的一步,就是在持久化存储之前需要进行指定数据解析。因为大多数情况下的需求,我们都会指定去使用聚焦爬虫,也就是爬取页面中指定部分的数据值,而不是整个页面的数 阅读全文
posted @ 2020-04-08 17:41 hanfe1 阅读(1362) 评论(0) 推荐(1) 编辑
摘要: 02 requests模块 requests模块初始 引入 在python实现的网络爬虫中,用于网络请求发送的模块有两种,第一种为urllib模块,第二种为requests模块。urllib模块是一种比较古老的模块,在使用的过程中较为繁琐和不便。当requests模块出现后,就快速的代替了urlli 阅读全文
posted @ 2020-04-08 17:39 hanfe1 阅读(1296) 评论(0) 推荐(0) 编辑
摘要: 01 爬虫简介 what is 爬虫? \ 形象概念: 爬虫,即网络爬虫,大家可以理解为在网络上爬行的一直蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛咯,如果它遇到资源,那么它就会抓取下来。想抓取什么?这个由你来控制它。 \ 学术概念:爬虫就是通过编写程序 模拟 浏览器上网,让其去 阅读全文
posted @ 2020-04-08 17:38 hanfe1 阅读(1038) 评论(0) 推荐(0) 编辑