摘要: xpath基本使用 一.安装lxml包 二.使用 1.使用: 1.获取最外面标签,遍历内部所有的子标签,获取标签文本 content_list =div.xpath('.//div[@class="d_post_content j_d_post_content "]/text()').extract 阅读全文
posted @ 2019-07-29 21:59 Deaseyy 阅读(750) 评论(0) 推荐(0) 编辑
摘要: 安装 使用 (以chrome浏览器为例) 1.导入: from selenium import webdriver 2.创建浏览器驱动对象 方法一: 将下载好的chrome浏览器驱动文件加入到python目录下 方法二:指定chrome浏览器驱动文件路径 3.打开浏览器网页访问url 打开网页: 关 阅读全文
posted @ 2019-07-29 21:58 Deaseyy 阅读(2602) 评论(0) 推荐(0) 编辑
摘要: 分布式爬虫 scrapy_redis使用 dupefilter去重: request_fingerpint() 请求指纹 使用haslib.sha1 对 request.method, request.url, request.headers, request.body 进行加密 40个字符的16进 阅读全文
posted @ 2019-07-29 21:57 Deaseyy 阅读(206) 评论(0) 推荐(0) 编辑
摘要: 一.框架介绍 1.scrapy框架由五个部分组成: Scrapy Engine(引擎): 负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯,信号、数据传递等 Scheduler(调度器): 它负责接受引擎发送过来的Request请求,并按照一定的方式进行 阅读全文
posted @ 2019-07-29 21:56 Deaseyy 阅读(267) 评论(0) 推荐(0) 编辑
摘要: # 反反爬虫相关机制 (有些些网站使用特定的不同程度的复杂性规则防止爬虫访问,绕过这些规则是困难和复杂的,有时可能需要特殊的基础设施,如果有疑问,请联系商业支持。) 来自于Scrapy官方文档描述:http://doc.scrapy.org/en/master/topics/practices.ht 阅读全文
posted @ 2019-07-29 21:54 Deaseyy 阅读(631) 评论(0) 推荐(0) 编辑
摘要: 解析库BeautifulSoup4基本使用 一.安装 Beautiful Soup在解析时实际是依赖解析器的,它除了支持python标准库中的HTML解析器外还支持第三方解析器如lxml等,推荐使用lxml. 安装解析器: pip install lxml 二.基本使用 创建beautifulsou 阅读全文
posted @ 2019-07-29 21:52 Deaseyy 阅读(4870) 评论(0) 推荐(0) 编辑
摘要: 1.创建项目和虚拟环境 2.基础配置 创建app 创建requirements.txt文件用来记录项目所需安装的依赖包 在init.py文件, 初始化 pymysql 连接驱动 在url文件, 配置路由分发 创建app 创建requirements.txt文件用来记录项目所需安装的依赖包 在init 阅读全文
posted @ 2019-07-29 21:29 Deaseyy 阅读(393) 评论(0) 推荐(0) 编辑
摘要: 1.创建一个运行Django项目的虚拟环境(virtualenv) virtualenv --no-site-packages [-p C:\Python36\python.exe] env1 进入虚拟环境激活: cd D:\file\env\env1\Scripts 进入到创建的虚拟环境目录env 阅读全文
posted @ 2019-07-29 21:15 Deaseyy 阅读(162) 评论(0) 推荐(0) 编辑