Python - 随笔分类 - JJJhr

Scrapy-Redis

摘要：Scrapy-Redis 是 Scrapy 的一个扩展，主要用于分布式爬虫开发。它通过 Redis 实现多个爬虫实例之间的任务队列共享和数据去重，使得爬虫可以在多个机器上协同工作，提高爬取效率和数据处理能力。 Scrapy-Redis 的主要特点分布式调度：任务队列存储在 Redis 中，多个爬虫阅读全文

posted @ 2024-07-05 01:11 JJJhr 阅读(68) 评论(0) 推荐(0) 编辑

scrapy 基础

摘要：Scrapy 是一个强大的 Python 网络爬虫框架，专门设计用于快速开发和管理网络爬虫程序。它提供了一套完整的工具集，使得爬取网站数据变得高效、灵活和可扩展。以下是 Scrapy 的基础介绍和使用方法： Scrapy 的基础概念项目（Project）： Scrapy 爬虫程序的基本工作单位，包阅读全文

posted @ 2024-07-05 01:04 JJJhr 阅读(15) 评论(0) 推荐(0) 编辑

MongoDB数据库

摘要：MongoDB 的介绍 MongoDB 是一个开源的非关系型数据库系统，采用 C++ 编写，旨在处理大量数据存储和高吞吐量的应用程序。MongoDB 使用 JSON 风格的文档存储数据，具有高度的灵活性和性能。主要特点：非关系型数据库：不采用传统的关系型数据库表格模型，而是使用文档存储模型。高阅读全文

posted @ 2024-07-05 00:57 JJJhr 阅读(75) 评论(0) 推荐(0) 编辑

反爬与反反爬

摘要：反爬原因反爬（Anti-Scraping）机制是网站为防止自动化程序（爬虫）过度抓取或恶意访问而采取的保护措施。反爬的主要原因包括：保护网站资源：大量的自动化访问会消耗服务器资源，影响正常用户的访问体验。保护数据隐私：一些网站的数据具有商业价值，网站希望保护这些数据不被自动化程序大量获取。防阅读全文

posted @ 2024-07-05 00:45 JJJhr 阅读(414) 评论(0) 推荐(0) 编辑

selenium操作

摘要：selenium介绍开发使用有头浏览器，部署使用无界面浏览器 selenium工作原理利用浏览器原生的API，封装成一套更加面向对象的Selenium WebDriver API，直接操作浏览器页面里的元素，甚至操作浏览器本身（截屏，窗口大小，启动，关闭，安装插件，配置证书之类的） seleni 阅读全文

posted @ 2024-07-05 00:09 JJJhr 阅读(38) 评论(0) 推荐(0) 编辑

loop对象

摘要：在Python中，当我们谈论“loop对象”时，可能是在谈论asyncio库中的事件循环（Event Loop），它是处理异步I/O、延迟执行（asyncio.sleep()）、任务（asyncio.Task）等的核心组件。 Python的asyncio库提供了一个高层次的接口来编写单线程并发代码，阅读全文

posted @ 2024-06-18 22:08 JJJhr 阅读(16) 评论(0) 推荐(0) 编辑

format( )函数

摘要：在Python中，DETAIL_URL.format(id=id) 是一个字符串格式化的表达式。它通常用于根据一个已定义的字符串模板 DETAIL_URL 来生成一个新的字符串。在这个模板中，会包含一个或多个占位符，这些占位符会被提供的参数值所替换。具体来说，DETAIL_URL 应该是一个包含占阅读全文

posted @ 2024-06-17 01:48 JJJhr 阅读(39) 评论(0) 推荐(0) 编辑

onreadystatechange 属性

摘要：onreadystatechange 属性是 XMLHttpRequest 对象的一个事件处理器，用于在 XMLHttpRequest 对象的 readyState 属性发生变化时触发。这个属性通常用于异步地获取和处理服务器的响应。以下是关于 onreadystatechange 属性的详细解释：阅读全文

posted @ 2024-06-15 01:05 JJJhr 阅读(107) 评论(0) 推荐(0) 编辑

load和loads的区别

摘要：在 Python 中，load 和 loads 是用于处理 JSON 数据的两个函数，分别用于从文件和字符串中加载 JSON 数据。它们都属于 json 模块。以下是详细的说明和示例： json.load json.load 用于从一个文件对象中读取 JSON 数据并将其解析为一个 Python 对阅读全文

posted @ 2024-06-12 16:42 JJJhr 阅读(92) 评论(0) 推荐(0) 编辑

.join()

摘要：在Python中，.join() 是一个字符串方法，用于将序列中的元素以指定的字符（或字符串）连接成一个新的字符串。这个方法需要两个主要的参数：分隔符（作为调用 .join() 方法的字符串本身）和要连接的序列（如列表、元组或字符串的迭代器）。 .join() 方法的基本语法如下： separato 阅读全文

posted @ 2024-06-10 00:47 JJJhr 阅读(134) 评论(0) 推荐(0) 编辑

iterrows()

摘要：iterrows() 是 Pandas 库中 DataFrame 对象的一个方法，它允许你迭代 DataFrame 的行。当你有一个 DataFrame 并且想要逐行访问数据（或者基于每一行的数据做一些操作）时，iterrows() 会非常有用。这个方法返回一个迭代器，产生索引和行数据作为成对的值阅读全文

posted @ 2024-06-09 21:54 JJJhr 阅读(97) 评论(0) 推荐(0) 编辑

logging.basicConfig()

摘要：logging.basicConfig() 是 Python 标准库 logging 模块中的一个函数，用于配置日志记录器（logger）的基本选项。这个函数允许你在不创建和配置多个 logger、handler 和 formatter 的情况下，快速地为你的应用程序设置日志记录。以下是一些 ba 阅读全文

posted @ 2024-06-01 14:32 JJJhr 阅读(566) 评论(0) 推荐(0) 编辑

re.search()用法详解

摘要：re.search() 是 Python 的正则表达式库 re 中的一个方法，用于在字符串中搜索与正则表达式模式匹配的第一个位置，并返回一个匹配对象。如果没有找到匹配项，则返回 None。以下是 re.search() 的基本用法和详解：基本语法 import re match = re.sea 阅读全文

posted @ 2024-05-19 01:38 JJJhr 阅读(2535) 评论(0) 推荐(0) 编辑

JJJhr'blog

随笔分类 - Python

公告

搜索

常用链接

合集

随笔分类

随笔档案

阅读排行榜

推荐排行榜