2019 年 7月 29 日随笔档案 - Deaseyy

2019年7月29日

摘要： xpath基本使用一.安装lxml包二.使用 1.使用: 1.获取最外面标签，遍历内部所有的子标签，获取标签文本 content_list =div.xpath('.//div[@class="d_post_content j_d_post_content "]/text()').extract 阅读全文

posted @ 2019-07-29 21:59 Deaseyy 阅读(750) 评论(0) 推荐(0) 编辑

selenium基本使用

摘要：安装使用 (以chrome浏览器为例) 1.导入: from selenium import webdriver 2.创建浏览器驱动对象方法一: 将下载好的chrome浏览器驱动文件加入到python目录下方法二:指定chrome浏览器驱动文件路径 3.打开浏览器网页访问url 打开网页: 关阅读全文

posted @ 2019-07-29 21:58 Deaseyy 阅读(2602) 评论(0) 推荐(0) 编辑

分布式爬虫

摘要：分布式爬虫 scrapy_redis使用 dupefilter去重: request_fingerpint() 请求指纹使用haslib.sha1 对 request.method, request.url, request.headers, request.body 进行加密 40个字符的16进阅读全文

posted @ 2019-07-29 21:57 Deaseyy 阅读(206) 评论(0) 推荐(0) 编辑

scrapy框架基本使用

摘要：一.框架介绍 1.scrapy框架由五个部分组成: Scrapy Engine(引擎): 负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯，信号、数据传递等 Scheduler(调度器): 它负责接受引擎发送过来的Request请求，并按照一定的方式进行阅读全文

posted @ 2019-07-29 21:56 Deaseyy 阅读(267) 评论(0) 推荐(0) 编辑

scrapy反反爬虫

摘要： # 反反爬虫相关机制 (有些些网站使用特定的不同程度的复杂性规则防止爬虫访问，绕过这些规则是困难和复杂的，有时可能需要特殊的基础设施，如果有疑问，请联系商业支持。) 来自于Scrapy官方文档描述：http://doc.scrapy.org/en/master/topics/practices.ht 阅读全文

posted @ 2019-07-29 21:54 Deaseyy 阅读(631) 评论(0) 推荐(0) 编辑

BeautifulSoup4基本使用

摘要：解析库BeautifulSoup4基本使用一.安装 Beautiful Soup在解析时实际是依赖解析器的，它除了支持python标准库中的HTML解析器外还支持第三方解析器如lxml等,推荐使用lxml. 安装解析器: pip install lxml 二.基本使用创建beautifulsou 阅读全文

posted @ 2019-07-29 21:52 Deaseyy 阅读(4870) 评论(0) 推荐(0) 编辑

前后分离后端项目流程

摘要： 1.创建项目和虚拟环境 2.基础配置创建app 创建requirements.txt文件用来记录项目所需安装的依赖包在init.py文件, 初始化 pymysql 连接驱动在url文件, 配置路由分发创建app 创建requirements.txt文件用来记录项目所需安装的依赖包在init 阅读全文

posted @ 2019-07-29 21:29 Deaseyy 阅读(393) 评论(0) 推荐(0) 编辑

创建Django项目

摘要： 1.创建一个运行Django项目的虚拟环境(virtualenv) virtualenv --no-site-packages [-p C:\Python36\python.exe] env1 进入虚拟环境激活: cd D:\file\env\env1\Scripts 进入到创建的虚拟环境目录env 阅读全文

posted @ 2019-07-29 21:15 Deaseyy 阅读(162) 评论(0) 推荐(0) 编辑

Deaseyy

公告