随笔分类 -  Python

摘要:Scrapy-Redis 是 Scrapy 的一个扩展,主要用于分布式爬虫开发。它通过 Redis 实现多个爬虫实例之间的任务队列共享和数据去重,使得爬虫可以在多个机器上协同工作,提高爬取效率和数据处理能力。 Scrapy-Redis 的主要特点 分布式调度:任务队列存储在 Redis 中,多个爬虫 阅读全文
posted @ 2024-07-05 01:11 JJJhr 阅读(68) 评论(0) 推荐(0) 编辑
摘要:Scrapy 是一个强大的 Python 网络爬虫框架,专门设计用于快速开发和管理网络爬虫程序。它提供了一套完整的工具集,使得爬取网站数据变得高效、灵活和可扩展。以下是 Scrapy 的基础介绍和使用方法: Scrapy 的基础概念 项目(Project): Scrapy 爬虫程序的基本工作单位,包 阅读全文
posted @ 2024-07-05 01:04 JJJhr 阅读(15) 评论(0) 推荐(0) 编辑
摘要:MongoDB 的介绍 MongoDB 是一个开源的非关系型数据库系统,采用 C++ 编写,旨在处理大量数据存储和高吞吐量的应用程序。MongoDB 使用 JSON 风格的文档存储数据,具有高度的灵活性和性能。 主要特点: 非关系型数据库:不采用传统的关系型数据库表格模型,而是使用文档存储模型。 高 阅读全文
posted @ 2024-07-05 00:57 JJJhr 阅读(75) 评论(0) 推荐(0) 编辑
摘要:反爬原因 反爬(Anti-Scraping)机制是网站为防止自动化程序(爬虫)过度抓取或恶意访问而采取的保护措施。反爬的主要原因包括: 保护网站资源:大量的自动化访问会消耗服务器资源,影响正常用户的访问体验。 保护数据隐私:一些网站的数据具有商业价值,网站希望保护这些数据不被自动化程序大量获取。 防 阅读全文
posted @ 2024-07-05 00:45 JJJhr 阅读(414) 评论(0) 推荐(0) 编辑
摘要:selenium介绍 开发使用有头浏览器,部署使用无界面浏览器 selenium工作原理 利用浏览器原生的API,封装成一套更加面向对象的Selenium WebDriver API,直接操作浏览器页面里的元素,甚至操作浏览器本身(截屏,窗口大小,启动,关闭,安装插件,配置证书之类的) seleni 阅读全文
posted @ 2024-07-05 00:09 JJJhr 阅读(38) 评论(0) 推荐(0) 编辑
摘要:在Python中,当我们谈论“loop对象”时,可能是在谈论asyncio库中的事件循环(Event Loop),它是处理异步I/O、延迟执行(asyncio.sleep())、任务(asyncio.Task)等的核心组件。 Python的asyncio库提供了一个高层次的接口来编写单线程并发代码, 阅读全文
posted @ 2024-06-18 22:08 JJJhr 阅读(16) 评论(0) 推荐(0) 编辑
摘要:在Python中,DETAIL_URL.format(id=id) 是一个字符串格式化的表达式。它通常用于根据一个已定义的字符串模板 DETAIL_URL 来生成一个新的字符串。在这个模板中,会包含一个或多个占位符,这些占位符会被提供的参数值所替换。 具体来说,DETAIL_URL 应该是一个包含占 阅读全文
posted @ 2024-06-17 01:48 JJJhr 阅读(39) 评论(0) 推荐(0) 编辑
摘要:onreadystatechange 属性是 XMLHttpRequest 对象的一个事件处理器,用于在 XMLHttpRequest 对象的 readyState 属性发生变化时触发。这个属性通常用于异步地获取和处理服务器的响应。以下是关于 onreadystatechange 属性的详细解释: 阅读全文
posted @ 2024-06-15 01:05 JJJhr 阅读(107) 评论(0) 推荐(0) 编辑
摘要:在 Python 中,load 和 loads 是用于处理 JSON 数据的两个函数,分别用于从文件和字符串中加载 JSON 数据。它们都属于 json 模块。以下是详细的说明和示例: json.load json.load 用于从一个文件对象中读取 JSON 数据并将其解析为一个 Python 对 阅读全文
posted @ 2024-06-12 16:42 JJJhr 阅读(92) 评论(0) 推荐(0) 编辑
摘要:在Python中,.join() 是一个字符串方法,用于将序列中的元素以指定的字符(或字符串)连接成一个新的字符串。这个方法需要两个主要的参数:分隔符(作为调用 .join() 方法的字符串本身)和要连接的序列(如列表、元组或字符串的迭代器)。 .join() 方法的基本语法如下: separato 阅读全文
posted @ 2024-06-10 00:47 JJJhr 阅读(134) 评论(0) 推荐(0) 编辑
摘要:iterrows() 是 Pandas 库中 DataFrame 对象的一个方法,它允许你迭代 DataFrame 的行。当你有一个 DataFrame 并且想要逐行访问数据(或者基于每一行的数据做一些操作)时,iterrows() 会非常有用。 这个方法返回一个迭代器,产生索引和行数据作为成对的值 阅读全文
posted @ 2024-06-09 21:54 JJJhr 阅读(97) 评论(0) 推荐(0) 编辑
摘要:logging.basicConfig() 是 Python 标准库 logging 模块中的一个函数,用于配置日志记录器(logger)的基本选项。这个函数允许你在不创建和配置多个 logger、handler 和 formatter 的情况下,快速地为你的应用程序设置日志记录。 以下是一些 ba 阅读全文
posted @ 2024-06-01 14:32 JJJhr 阅读(566) 评论(0) 推荐(0) 编辑
摘要:re.search() 是 Python 的正则表达式库 re 中的一个方法,用于在字符串中搜索与正则表达式模式匹配的第一个位置,并返回一个匹配对象。如果没有找到匹配项,则返回 None。 以下是 re.search() 的基本用法和详解: 基本语法 import re match = re.sea 阅读全文
posted @ 2024-05-19 01:38 JJJhr 阅读(2535) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示