2024 年 7月 5 日随笔档案 - JJJhr

2024年7月5日

摘要： Scrapy-Redis 是 Scrapy 的一个扩展，主要用于分布式爬虫开发。它通过 Redis 实现多个爬虫实例之间的任务队列共享和数据去重，使得爬虫可以在多个机器上协同工作，提高爬取效率和数据处理能力。 Scrapy-Redis 的主要特点分布式调度：任务队列存储在 Redis 中，多个爬虫阅读全文

posted @ 2024-07-05 01:11 JJJhr 阅读(22) 评论(0) 推荐(0) 编辑

scrapy 基础

摘要： Scrapy 是一个强大的 Python 网络爬虫框架，专门设计用于快速开发和管理网络爬虫程序。它提供了一套完整的工具集，使得爬取网站数据变得高效、灵活和可扩展。以下是 Scrapy 的基础介绍和使用方法： Scrapy 的基础概念项目（Project）： Scrapy 爬虫程序的基本工作单位，包阅读全文

posted @ 2024-07-05 01:04 JJJhr 阅读(6) 评论(0) 推荐(0) 编辑

MongoDB数据库

摘要： MongoDB 的介绍 MongoDB 是一个开源的非关系型数据库系统，采用 C++ 编写，旨在处理大量数据存储和高吞吐量的应用程序。MongoDB 使用 JSON 风格的文档存储数据，具有高度的灵活性和性能。主要特点：非关系型数据库：不采用传统的关系型数据库表格模型，而是使用文档存储模型。高阅读全文

posted @ 2024-07-05 00:57 JJJhr 阅读(46) 评论(0) 推荐(0) 编辑

反爬与反反爬

摘要：反爬原因反爬（Anti-Scraping）机制是网站为防止自动化程序（爬虫）过度抓取或恶意访问而采取的保护措施。反爬的主要原因包括：保护网站资源：大量的自动化访问会消耗服务器资源，影响正常用户的访问体验。保护数据隐私：一些网站的数据具有商业价值，网站希望保护这些数据不被自动化程序大量获取。防阅读全文

posted @ 2024-07-05 00:45 JJJhr 阅读(114) 评论(0) 推荐(0) 编辑

selenium操作

摘要： selenium介绍开发使用有头浏览器，部署使用无界面浏览器 selenium工作原理利用浏览器原生的API，封装成一套更加面向对象的Selenium WebDriver API，直接操作浏览器页面里的元素，甚至操作浏览器本身（截屏，窗口大小，启动，关闭，安装插件，配置证书之类的） seleni 阅读全文

posted @ 2024-07-05 00:09 JJJhr 阅读(15) 评论(0) 推荐(0) 编辑

JJJhr'blog

公告