lxinghua

博客园 首页 新随笔 联系 订阅 管理
  117 随笔 :: 0 文章 :: 0 评论 :: 7466 阅读

随笔分类 -  06爬虫

学习记录
摘要:一、 js逆向之MD5加密算法 MD5:一种哈希算法。 哈希算法,即hash,又叫散列算法,是一类把任意数据转换为定长(或限制长度)数据的算法统称。 特点: 1. 长度固定:固定生成16进制的32位或者16位的数据; 2. 易计算:开发者很容易理解和做出加密工具; 3. 细微性:一个文件,不管多大, 阅读全文
posted @ 2023-03-28 21:55 興華 阅读(235) 评论(0) 推荐(0) 编辑

摘要:scrapy_redis 首先redis是一种数据库类型,其有字符串、列表、集合、哈希等数据类型,满足scrapy engine调度以及去重的功能。 redis数据库基本操作: 启动客户端:redis-cli list添加一个元素:LPUSH key vaule 查看长度:llen name 查看所 阅读全文
posted @ 2023-03-28 14:51 興華 阅读(32) 评论(0) 推荐(0) 编辑

摘要:一、 crawl spider介绍 二、logging模块介绍 三、DownloaderMiddleware介绍 四、 scrapy模拟登录 阅读全文
posted @ 2023-03-28 14:37 興華 阅读(17) 评论(0) 推荐(0) 编辑

摘要:为什么要学习scrapy爬虫框架 https://www.runoob.com/w3cnote/scrapy-detail.html 安装scrapy 1. 安装pywin32 -- Microsoft Windows的Python扩展提供对大部分Win32 API的访问,创建和使用COM对象的能力 阅读全文
posted @ 2023-03-17 20:44 興華 阅读(46) 评论(0) 推荐(0) 编辑

摘要:selenium安装配置 1. 下载对应驱动 安装selenium,需要下载驱动。网址:https://npm.taobao.org/mirrors/chormedriver/ 即需要下载谷歌浏览器当前版本对应的驱动。 2. 解压后得到chromedriver.exe可执行文件 3. 选中这个文件进 阅读全文
posted @ 2023-03-16 20:04 興華 阅读(16) 评论(0) 推荐(0) 编辑

摘要:GIL锁及多进程 GIL python有一个非常重要的GIL(global interpreter lock,全局解释器锁) python代码执行由python虚拟机(解释器主循环)来控制。对python虚拟机的访问由GIL控制,GIL保证同一时刻只有一个线程在执行。 多进程 由于Python设计的 阅读全文
posted @ 2023-03-15 20:11 興華 阅读(28) 评论(0) 推荐(0) 编辑

摘要:csv存储 1. csv文件时大数据文件储存格式的文件结构与Excel不同; 2. CSV是一种通用、相对简单的文件格式,被用户。商业和科学广泛应用。最广泛的应用是在程序之间转移表格数据,而这些程序本身是在不兼容的格式上进行操作的(往往是私有的和/或无规范的格式); 3. 因为大量程序都支持某种CS 阅读全文
posted @ 2023-03-15 20:05 興華 阅读(33) 评论(0) 推荐(0) 编辑

摘要:jaonpath 数据提取 使用普通查找: print(data["store"]["book"][0]["author"] # 找到book下的第一个author 使用jsonpath查找: print(jsonpath.jsonpath(data, "$..author")) # 所有autho 阅读全文
posted @ 2023-03-15 20:04 興華 阅读(20) 评论(0) 推荐(0) 编辑

摘要:requests_html模块 requests_html 模块介绍 1. requests_html是比较新的爬虫库,作者和requests是同一个作者; 2. 我们可以在安装的时候看到他安装了lxml、requests、bs4 ......等我们常用的解析和爬取的库都封装在他里面; 3. 用法和 阅读全文
posted @ 2023-03-15 19:52 興華 阅读(35) 评论(0) 推荐(0) 编辑

摘要:一、调试模式介绍 调试模式,即进入网页页面半代码模式,查看网页与代码一一对应关系。鼠标右键,再出现选项中找到检查进入调试模式,或者按键盘上的F12键进入调试模式。 功能介绍: elements:点击这个功能后出现的是当前页面的html文件,在你想实时修改的那个元素出双击,可以暂时修改,不过并没有同步 阅读全文
posted @ 2023-03-15 18:50 興華 阅读(77) 评论(0) 推荐(0) 编辑

摘要:网络爬虫 1. Python基础语法学习(基础知识) 2. 对HTML页面的内容抓取(Crawl) 3. 对HTML页面的数据解析(Parse) 4. 动态HTML的处理/验证码的处理(针对反爬处理) 5. Scrapy框架以及scrapy-redis分布式策略(第三方框架) 6. 爬虫(Spide 阅读全文
posted @ 2023-03-13 16:37 興華 阅读(71) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示