上一页 1 ··· 4 5 6 7 8 9 10 11 12 ··· 19 下一页
摘要: 基于终端指令: 要求:只可以将parse方法的返回值存储到本地的文本文件中 注意:持久批存储对应的文本文件类型只可以为:('csv', 'pickle', 'json', 'xml', 'jl', 'jsonlines', 'marshal') 指令:scrapy crawl xxx -o file 阅读全文
posted @ 2020-05-29 11:18 南啾 阅读(116) 评论(0) 推荐(0) 编辑
摘要: 什么是scrapy 爬虫中封装好的一个明星框架 功能:高性能的持久化存储,异步的数据下载,高性能的数据解析,分布式 scrapy框架的基本使用 环境的安装: mac or linux :pip insatall scrapy window: - pip install wheel - 下载twist 阅读全文
posted @ 2020-05-27 13:24 南啾 阅读(153) 评论(0) 推荐(0) 编辑
摘要: 如果定位的标签存在于iframe标签中,则必须使用switch_to.frame(id) 导入动作链(拖动):from selenium.webdriver import ActionChains 实例化一个动作链对象:action = ActionChains(bro) click_and_hol 阅读全文
posted @ 2020-05-27 10:03 南啾 阅读(281) 评论(0) 推荐(0) 编辑
摘要: 一、selenium模块和爬虫之间具有怎样的关联 便捷的获取网站中动态加载的数据 便捷实现模拟登录 二、什么是selenium模块 基于浏览器自动化的一个模块 三、selenium使用流程 1、环境安装:pip install selenium -i https://mirrors.aliyun.c 阅读全文
posted @ 2020-05-26 17:28 南啾 阅读(317) 评论(0) 推荐(0) 编辑
摘要: 一、目的:在爬虫中使用异步实现高性能的数据爬取操作 二、异步爬虫的方式: 1、多线程、多进程(不建议) 好处:可以为相关阻塞的操作单独开启线程或者进程,阻塞操作就可以异步执行 弊端:无法无限制的开启多线程或者多进程 2、线程池、进程池(适当使用) 好处:我们可以降低系统对进程或者线程创建和销毁的一个 阅读全文
posted @ 2020-05-26 14:26 南啾 阅读(114) 评论(0) 推荐(0) 编辑
摘要: 代理:破解封IP这种反爬机制 什么是代理: 即代理服务器 代理的作用: 突破自身IP访问的限制 可以隐藏自身真实IP 代理相关的网站: 快代理 西祠代理 www.goubanjia.com 代理的类型 http:应用于http协议对应的url中 https:应用到https协议对应的url中 代理i 阅读全文
posted @ 2020-05-26 10:53 南啾 阅读(212) 评论(0) 推荐(0) 编辑
摘要: 一、xpath解析原理: 实例化一个etree的对象,且需要将被解析的页面源码数据加载到该对象中 调用etree对象中的xpath方法结合着xpath表达式实现标签的定位和内容的捕获 二、环境的安装: pip install lxml 三、如何实例化一个etree对象 from lxml.html 阅读全文
posted @ 2020-05-22 14:33 南啾 阅读(554) 评论(0) 推荐(0) 编辑
摘要: bs4数据解析的原理 实例化一个BeautifulSoup对象,并且将页面源码数据加载到该对象中 通过调用BeautifulSoup对象中相关的属性或者方法进行标签定位和数据提取 环境安装: pip install bs4 pip install lxml 如何实例化BeautifulSoup对象 阅读全文
posted @ 2020-05-22 12:59 南啾 阅读(235) 评论(0) 推荐(0) 编辑
摘要: import requests import re import os if __name__ == '__main__': # 创建一个文件夹,用来保存所有的图片 if not os.path.exists('./qiutuLibs'): os.mkdir('./qiutuLibs') url = 阅读全文
posted @ 2020-05-22 12:56 南啾 阅读(158) 评论(0) 推荐(0) 编辑
摘要: 数据解析分类 正则 bs4 xpath(重点) 数据解析原理概述: 解析的局部的文本内容都会在标签或者标签对应的属性中进行存储 进行指定标签的定位 对标签或者标签对应的属性中存储的数据进行提取(解析) 阅读全文
posted @ 2020-05-22 12:54 南啾 阅读(202) 评论(0) 推荐(0) 编辑
上一页 1 ··· 4 5 6 7 8 9 10 11 12 ··· 19 下一页