上一页 1 ··· 3 4 5 6 7 8 9 10 11 12 下一页
摘要: 一.什么是Scrapy? Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍。所谓的框架就是一个已经被集成了各种功能(高性能异步下载,队列,分布式,解析,持久化等)的具有很强通用性的项目模板。对于框架的学习,重点是要学习其框架的特性、各个功能的用法即可。 - sc 阅读全文
posted @ 2019-09-23 23:21 陪伴is最长情的告白 阅读(400) 评论(0) 推荐(0) 编辑
摘要: Pyppeteer pyppeteer模块的基本使用 引言 Selenium 在被使用的时候有个麻烦事,就是环境的相关配置,得安装好相关浏览器,比如 Chrome、Firefox 等等,然后还要到官方网站去下载对应的驱动,最重要的还需要安装对应的 Python Selenium 库,确实是不是很方便 阅读全文
posted @ 2019-09-23 16:01 陪伴is最长情的告白 阅读(408) 评论(0) 推荐(0) 编辑
摘要: - 在python3.4之后新增了asyncio模块,可以帮我们检测IO(只能是网络IO【HTTP连接就是网络IO操作】),实现应用程序级别的切换(异步IO)。注意:asyncio只能发tcp级别的请求,不能发http协议。 - 异步IO:所谓「异步 IO」,就是你发起一个 网络IO 操作,却不用等 阅读全文
posted @ 2019-09-23 15:41 陪伴is最长情的告白 阅读(463) 评论(0) 推荐(0) 编辑
摘要: 本实例主要进行线程池创建,多线程获取、存储视频文件 梨视频:利用线程池进行视频爬取 阅读全文
posted @ 2019-09-20 16:42 陪伴is最长情的告白 阅读(647) 评论(0) 推荐(0) 编辑
摘要: 简介 selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器,完全模拟浏览器的操作,比如跳转、输入、点击、下拉等,来拿到网页渲染之后的结果,可支持多种浏览器 环境安装 下载安装seleni 阅读全文
posted @ 2019-09-20 16:36 陪伴is最长情的告白 阅读(539) 评论(0) 推荐(0) 编辑
摘要: 云打码平台【处理各类验证码的平台】 注册:普通用户和开发者用户 登录: 登录普通用户(查看余额) 登录开发者用户: 创建一个软件:我的软件->创建软件 下载示例代码:开发者中心->下载最新的DLL->pythonHttp示例代码下载 云打码平台【处理各类验证码的平台】 注册:普通用户和开发者用户 登 阅读全文
posted @ 2019-09-20 15:41 陪伴is最长情的告白 阅读(8391) 评论(0) 推荐(0) 编辑
摘要: 5种反爬机制 robots.txt:反爬机制,防君子不防小人 UA检测:UA伪装 数据加密 图片懒加载 代理ip requests模块爬取流程: 指定url 发起请求 获取页面数据 数据解析 持久化存储 bs4解析: 环境安装:bs4、lxml解析器 实例化bs对象,将页面源码数据加载到该对象中 定 阅读全文
posted @ 2019-09-19 22:39 陪伴is最长情的告白 阅读(467) 评论(0) 推荐(0) 编辑
摘要: - re.I # 忽略大小写- re.M # 多行匹配,将正则作用到源数据的每一行- re.S # 单行匹配,将正则作用到整个源数据,输出一个整体字符串(包括换行符也打印) 阅读全文
posted @ 2019-09-18 22:19 陪伴is最长情的告白 阅读(276) 评论(0) 推荐(0) 编辑
摘要: 使用流程: -导包:from bs4 import BeautifulSoup - 使用方式:可以将一个html文档,转化为BeautifulSoup对象,然后通过对象的方法或属性去查找指定的节点内容。 (1)转化本地文件: - soup = BeautifulSoup(open(‘本地文件’),‘ 阅读全文
posted @ 2019-09-18 15:03 陪伴is最长情的告白 阅读(1403) 评论(0) 推荐(0) 编辑
摘要: - 基于如下5点展开requests模块的学习 什么是requests模块 requests模块是python中原生的基于网络请求的模块,其主要作用是用来模拟浏览器发起请求。功能强大,用法简洁高效。在爬虫领域中占据着半壁江山的地位。 为什么要使用requests模块 因为在使用urllib模块的时候 阅读全文
posted @ 2019-09-18 14:20 陪伴is最长情的告白 阅读(285) 评论(0) 推荐(0) 编辑
上一页 1 ··· 3 4 5 6 7 8 9 10 11 12 下一页