2022 年 10月 20 日随笔档案 - 琴棋书画123

14 scrapy的crawlspider爬虫

摘要： scrapy的crawlspider爬虫学习目标：了解 crawlspider的作用应用 crawlspider爬虫创建的方法应用 crawlspider中rules的使用 1 crawlspider是什么回顾之前的代码中，我们有很大一部分时间在寻找下一页的url地址或者是内容的url地址阅读全文

posted @ 2022-10-20 11:45 琴棋书画123 阅读(29) 评论(0) 推荐(0) 编辑

12Gerapy

摘要： 13.Gerapy 学习目标了解什么是Gerapy 掌握 Gerapy的安装掌握 Gerapy配置启动掌握通过Gerapy配置管理scrapy项目 1.Gerapy介绍: Gerapy 是一款分布式爬虫管理框架，支持 Python 3，基于 Scrapy、Scrapyd、Scrapy 阅读全文

posted @ 2022-10-20 11:44 琴棋书画123 阅读(24) 评论(0) 推荐(0) 编辑

11scrapyd部署scrapy项目

摘要： scrapyd部署scrapy项目学习目标了解 scrapyd的使用流程 1. scrapyd的介绍 scrapyd是一个用于部署和运行scrapy爬虫的程序，它允许你通过JSON API来部署爬虫项目和控制爬虫运行，scrapyd是一个守护进程，监听爬虫的运行和请求，然后启动进程来执行它们所阅读全文

posted @ 2022-10-20 11:44 琴棋书画123 阅读(27) 评论(0) 推荐(0) 编辑

10scrapy的日志信息与配置

摘要： scrapy的日志信息与配置学习目标：了解 scrapy的日志信息掌握 scrapy的常用配置掌握 scrapy_redis配置了解scrapy_splash配置了解scrapy_redis和scrapy_splash配合使用的配置 1. 了解scrapy的日志信息 2. scrapy的阅读全文

posted @ 2022-10-20 11:44 琴棋书画123 阅读(50) 评论(0) 推荐(0) 编辑

9scrapy_splash组件的使用

摘要： scrapy_splash组件的使用学习目标了解 scrapy_splash组件的作用了解 scrapy_splash组件的使用 1. 什么是scrapy_splash？ scrapy_splash是scrapy的一个组件 scrapy-splash加载js数据是基于Splash来实现的。 S 阅读全文

posted @ 2022-10-20 11:43 琴棋书画123 阅读(48) 评论(0) 推荐(0) 编辑

7mongodb和python交互

摘要： mongodb和python交互学习目标掌握 mongdb和python交互的增删改查的方法掌握权限认证的方式使用pymongo模块 1. mongdb和python交互的模块 pymongo 提供了mongdb和python交互的所有方法安装方式: pip install pymongo 阅读全文

posted @ 2022-10-20 11:43 琴棋书画123 阅读(42) 评论(0) 推荐(0) 编辑

6Mongodb的权限管理

摘要： Mongodb的权限管理学习目标 1.了解 mongodb的权限管理 1. 为什么要进行权限管理的设置刚安装完毕的mongodb默认不使用权限认证方式启动，与MySQL不同，mongodb在安装的时候并没有设置权限，然而公网运行系统需要设置权限以保证数据安全，所以我们要学习mongodb的权限管阅读全文

posted @ 2022-10-20 11:42 琴棋书画123 阅读(37) 评论(0) 推荐(0) 编辑

5 Mongodb的索引操作

摘要： Mongodb的索引操作学习目标掌握 mongodb索引的创建，删除操作掌握 mongodb查看索引的方法掌握 mongodb创建唯一索引的方法 1. 为什么mongdb需要创建索引加快查询速度进行数据的去重 2. mongodb创建简单的索引方法语法：db.集合名.ensureInd 阅读全文

posted @ 2022-10-20 11:37 琴棋书画123 阅读(27) 评论(0) 推荐(0) 编辑

4JS的解析

摘要： JS的解析学习目标：了解定位js的方法了解添加断点观察js的执行过程的方法应用 js2py获取js的方法 1 确定js的位置对于前面人人网的案例，我们知道了url地址中有部分参数，但是参数是如何生成的呢？毫无疑问，参数肯定是js生成的，那么如何获取这些参数的规律呢？通过下面的学习来了阅读全文

posted @ 2022-10-20 11:37 琴棋书画123 阅读(99) 评论(0) 推荐(0) 编辑

3selenium的其它使用方法

摘要： selenium的其它使用方法知识点：掌握 selenium控制标签页的切换掌握 selenium控制iframe的切换掌握利用selenium获取cookie的方法掌握手动实现页面等待掌握 selenium控制浏览器执行js代码的方法掌握 selenium开启无界面模式了解 s 阅读全文

posted @ 2022-10-20 11:36 琴棋书画123 阅读(38) 评论(0) 推荐(0) 编辑

2 selenium提取数据

摘要： selenium提取数据知识点：了解 driver对象的常用属性和方法掌握 driver对象定位标签元素获取标签对象的方法掌握标签对象提取文本和属性值的方法 1. driver对象的常用属性和方法在使用selenium过程中，实例化driver对象后，driver对象有一些常用的属性和方阅读全文

posted @ 2022-10-20 11:36 琴棋书画123 阅读(82) 评论(0) 推荐(0) 编辑

1selenium的介绍

摘要： selenium的介绍知识点：了解 selenium的工作原理了解 selenium以及chromedriver的安装掌握标签对象click点击以及send_keys输入 1. selenium运行效果展示 Selenium是一个Web的自动化测试工具，最初是为网站自动化测试而开发的，Se 阅读全文

posted @ 2022-10-20 11:36 琴棋书画123 阅读(46) 评论(0) 推荐(0) 编辑

http协议复习

摘要： http协议复习知识点掌握 http以及https的概念和默认端口掌握爬虫关注的请求头和响应头了解常见的响应状态码理解浏览器和爬虫爬取的区别一提起http协议，大家都会想起它是一个应用层协议，那么http协议跟爬虫有什么关系呢？请看下图： 1. http以及https的概念和区别阅读全文

posted @ 2022-10-20 11:33 琴棋书画123 阅读(54) 评论(0) 推荐(0) 编辑

爬虫概述

摘要：爬虫概述知识点：了解爬虫的概念了解爬虫的作用了解爬虫的分类掌握爬虫的流程 1. 爬虫的概念模拟浏览器，发送请求，获取响应网络爬虫（又被称为网页蜘蛛，网络机器人）就是模拟客户端(主要指浏览器)发送网络请求，接收请求响应，一种按照一定的规则，自动地抓取互联网信息的程序。原则上,只阅读全文

posted @ 2022-10-20 11:32 琴棋书画123 阅读(151) 评论(0) 推荐(0) 编辑

requests模块

摘要： requests模块知识点：掌握 headers参数的使用掌握发送带参数的请求掌握 headers中携带cookie 掌握 cookies参数的使用掌握 cookieJar的转换方法掌握超时参数timeout的使用掌握代理ip参数proxies的使用掌握使用verify参数忽阅读全文

posted @ 2022-10-20 11:32 琴棋书画123 阅读(56) 评论(0) 推荐(0) 编辑

数据提取-lxml模块

摘要：数据提取-lxml模块知识点了解 lxml模块和xpath语法的关系了解 lxml模块的使用场景了解 lxml模块的安装了解谷歌浏览器xpath helper插件的安装和使用掌握 xpath语法-基础节点选择语法掌握 xpath语法-节点修饰语法掌握 xpath语法-其他常用语法阅读全文

posted @ 2022-10-20 11:31 琴棋书画123 阅读(105) 评论(0) 推荐(0) 编辑