布都御魂

补环境的情况和方法

摘要：在 Python 爬虫开发过程中，"补环境"通常指的是确保你的爬虫具备所有必要的配置和依赖，以便能够成功地访问和解析目标网站。以下是一些常见的情况，以及如何补全环境的方法： ### 1. 网站需要特定的 User-Agent如果网站根据 User-Agent 来限制爬虫访问，你需要设置一个常见的浏览

43

0

浏览器隐身模式

摘要：隐身模式（也称为隐身窗口或隐私模式）在浏览器自动化和爬虫应用中提供了几个关键好处：避免跟踪：隐身模式不会保存浏览历史、Cookie 或站点数据。这意味着每次启动隐身会话时，都是一个全新的、无痕迹的会话，有助于避免跨站点的跟踪。减少检测：许多网站使用 Cookie 和本地存储来识别和跟踪用户行为。

39

0

python查询MongoDB数据库中重复数据的标题和数量以及删除重复项只保留最新一个

摘要： from urllib.parse import quote_plus import pymongo connection_string = "mongodb://localhost:27017" client = pymongo.MongoClient(connection_string) db

28

0

根据后缀名把Excel文件转换成可以插入MongoDB数据库的数据

摘要： import pandas as pd import os def convert_file_to_json(file_path): # 检查文件扩展名并读取文件 _, file_extension = os.path.splitext(file_path) if file_extension.lo

15

0

工程化爬虫的写法

摘要：爬虫工程化是指将爬虫开发成一个稳定、可维护、可扩展的系统。这通常涉及到以下几个方面：模块化设计：将爬虫分解为多个模块，例如数据抓取、数据解析、数据存储、错误处理等。配置管理：使用配置文件来管理爬虫的参数，如目标URL、请求头、代理服务器等。异常处理：合理处理网络请求异常、数据解析异常等。日志

55

0

Server disconnected without sending a response.

摘要：解决办法：关闭代理

93

0

获取网页的markdown

摘要： # 获取网页源码 import re import html2text import requests def preprocess_html(html): # 删除没有 src 属性的 img 标签 processed_html = re.sub(r'<img(?![^>]*\ssrc=)[^>]

14

0

代码或者网页源码中出现304状态码

摘要：删除“If-Modified-Since” 和 “If-None-Match” 等条件请求头

7

0

去除空格

摘要： def clean_title_source_date(s): # 使用正则表达式去除回车符、制表符、换行符、全角空格和非断行空白符 cleaned = re.sub(r'[ \r\t\n\u3000\xa0来源：]', '', s) return cleaned

13

0

从MongoDB compass中导出某个时间段的数据

摘要： # 把结果复制到MongoDB compass上的查询位置# 点击export data# 点击Export query results# Select fields in table 选择需要导出的字段# 导出last=open('spider.results_dangdang.csv','r',

73

0

公告

搜索

常用链接

最新随笔

积分与排名

随笔档案 (241)

文章档案 (1)

技能树

阅读排行榜

评论排行榜

最新评论