小橙子11 - 博客园

2024年1月24日

摘要：在当今数字化的世界中，网络上充斥着各种各样的数据，而这些数据往往以各种不同的格式和结构存在。要从这些数据中获取有用的信息，我们就需要使用一些工具来解析和提取数据。 BeautifulSoup和Cheerio BeautifulSoup是Python中用于解析HTML和XML文档的库，而Cheerio 阅读全文

posted @ 2024-01-24 16:43 小橙子11 阅读(107) 评论(0) 推荐(0)

2024年1月15日

PuppeteerSharp库在C#中的应用案例

摘要：引言 PuppeteerSharp是一个针对Google Chrome浏览器的高级API库，它允许我们使用C#来控制Chrome浏览器的，比如模拟用户行为操作、爬取网页内容等。本文将介绍如何使用PuppeteerSharp库在C#中实现下载千图网图片并保存为PDF文件的案例。 PuppeteerSh 阅读全文

posted @ 2024-01-15 16:46 小橙子11 阅读(289) 评论(0) 推荐(0)

2024年1月4日

Python中User-Agent的重要作用及实际应用

摘要：摘要： User-Agent是HTTP协议中的一个重要字段，用于标识发送请求的客户端信息。在Python中，User-Agent的作用至关重要，它可以影响网络请求的结果和服务器端的响应。将介绍User-Agent在Python中的重要作用，并结合实际案例展示其应用。正文：一、User-Agent 阅读全文

posted @ 2024-01-04 16:46 小橙子11 阅读(284) 评论(0) 推荐(0)

2023年12月19日

深度解析Python爬虫中的隧道HTTP技术

摘要：前言网络爬虫在数据采集和信息搜索中扮演着重要的角色，然而，随着网站反爬虫的不断升级，爬虫机制程序面临着越来越多的挑战。隧道HTTP技术作为应对反爬虫机制的重要性手段，为爬虫程序提供了更为灵活和隐蔽的数据采集方式。本文将探讨Python爬虫中的隧道HTTP技术，包括其基础知识、搭建过程、技术优势以及阅读全文

posted @ 2023-12-19 16:31 小橙子11 阅读(66) 评论(0) 推荐(0)

2023年12月6日

python HTML文件标题解析问题的挑战

摘要：引言在网络爬虫中，HTML文件标题解析扮演着至关重要的角色。正确地解析HTML文件标题可以帮助爬虫准确地获取所需信息，但是在实际操作中，我们常常会面临一些挑战和问题。本文将探讨在Scrapy中解析HTML文件标题时可能遇到的问题，并提供解决方案。问题背景在解析HTML文件标题的过程中，我们可能阅读全文

posted @ 2023-12-06 16:51 小橙子11 阅读(63) 评论(0) 推荐(0)

2023年11月22日

Request 爬虫的 SSL 连接问题深度解析

摘要： SSL 连接简介 SSL（Secure Sockets Layer）是一种用于确保网络通信安全性的加密协议，广泛应用于互联网上的数据传输。在数据爬取过程中，爬虫需要与使用 HTTPS 协议的网站进行通信，这就牵涉到了 SSL 连接。本文将深入研究 Request 爬虫中的 SSL 连接问题，并提供解阅读全文

posted @ 2023-11-22 16:43 小橙子11 阅读(220) 评论(0) 推荐(0)

2023年11月14日

Python爬虫过程中DNS解析错误解决策略

摘要：在Python爬虫开发中，经常会遇到DNS解析错误，这是一个常见且也令人头疼的问题。DNS解析错误可能会导致爬虫失败，但幸运的是，我们可以采取一些策略来处理这些错误，确保爬虫能够正常运行。本文将介绍什么是DNS解析错误，可能的原因，以及在爬取过程中遇到DNS解析错误时应该如何解决。什么是DNS解析阅读全文

posted @ 2023-11-14 16:42 小橙子11 阅读(205) 评论(0) 推荐(0)

2023年11月6日

Scala中使用Selenium进行网页内容摘录的详解

摘要：前言公众号成为获取信息的重要途径之一。而对于公众号运营者来说，了解公众号的数据情况非常重要。比如，你可能想要获取公众号的文章内容，进行数据分析或者生成摘要。或者你可能想要监控竞争对手的公众号，了解他们的最新动态动态。无论是哪种情况，使用 Scala 和 Selenium 进行网页内容都是一个不错的选阅读全文

posted @ 2023-11-06 16:44 小橙子11 阅读(84) 评论(0) 推荐(0)

2023年10月24日

如何在Puppeteer中设置User-Agent来绕过京东的反爬虫机制？

摘要：概述京东作为中国最大的电商平台，为了保护其网站数据的安全性，采取了一系列的反爬虫机制。然而，作为开发者，我们可能需要使用爬虫工具来获取京东的数据。正文 Puppeteer 是一个由 Google 开发的 Node.js 库，它提供了高级的 API，用于控制无头浏览器（Headless Brows 阅读全文

posted @ 2023-10-24 16:51 小橙子11 阅读(901) 评论(0) 推荐(0)

2023年10月8日

异步爬虫实战：实际应用asyncio和aiohttp库构建异步爬虫

摘要：在网络爬虫的开发中，异步爬虫已经成为一种非常流行的技术。它能够充分利用计算机的资源，提高爬虫效率，并且能够处理大量的运算请求。Python中的asyncio和aiohttp库提供了强大的异步爬虫支持，使得开发者能够轻松构建高效的异步爬虫。什么是异动爬虫？为什么要使用自动爬虫？异步爬虫是一种高效的阅读全文

posted @ 2023-10-08 16:45 小橙子11 阅读(140) 评论(0) 推荐(0)