爬虫 - 随笔分类 - 我和你并没有不同

基于 Selenium 的轻量级 Python 库

摘要：https://github.com/mherrmann/helium 简化浏览器自动化的 Python 库。该项目是基于 Selenium 的轻量级 Python 库，它通过提供更高级和易用的 API，让用 Python 编写浏览器自动化脚本变得更加简单和方便，支持 Chrome 和 Firefo 阅读全文

posted @ 2025-06-20 11:02 我和你并没有不同阅读(17) 评论(0) 推荐(0)

基于 Selenium 的 Python 自动化测试框架 seleniumbase

摘要：https://seleniumbase.io/integrations/docker/ReadMe/ https://seleniumbase.io/ from seleniumbase import SB def exec(url='https://pubmed.ncbi.nlm.nih.gov 阅读全文

posted @ 2024-08-29 10:41 我和你并没有不同阅读(74) 评论(0) 推荐(0)

反爬

摘要：23、undetected-chromedriver：绕过反爬检测的 Python 库。这是一个经过优化的 Selenium WebDriver 补丁，专门用于防止浏览器自动化过程中，触发反机器人机制。它能够隐藏浏览器特征（指纹），使用起来十分方便，就像一个 Python 的第三方库一样。 impo 阅读全文

posted @ 2024-05-28 09:26 我和你并没有不同阅读(236) 评论(0) 推荐(0)

这个Python库把Selenium按在地上摩擦！

摘要：转自：快学pythonDrissionPage 是一个基于 python 的网页自动化工具。它既能控制浏览器，也能收发数据包，还能把两者合而为一。可兼顾浏览器自动化的便利性和 requests 的高效率。它功能强大，内置无数人性化设计和便捷功能。它的语法简洁而优雅，代码量少，对新手友好。背景用阅读全文

posted @ 2024-05-13 10:20 我和你并没有不同阅读(47) 评论(0) 推荐(0)

如何搭建一个爬虫代理服务？

摘要：由于之前一直在做爬虫采集相关的开发，这个过程那肯定少不了跟「代理 IP 」打交道，这篇文章就来记录一下，如何实现一个爬虫代理服务，本篇文章主要以讲解思路为主。起因做过爬虫的人应该都知道，抓的网站和数据多了，如果爬虫抓取速度过快，免不了触发网站的防爬机制。而这些网站应对爬虫的办法，几乎用的同一招就阅读全文

posted @ 2024-04-26 14:58 我和你并没有不同阅读(140) 评论(0) 推荐(0)

scrapy的暂停与重启

摘要：创建爬虫项目： scrapy startproject fileSpider 进入项目后，查看爬虫项目下拥有的爬虫模板 cd fileSpider scrapy genspider -l 创建一个CrawlSpider爬虫： scrapy genspider -t crawl weisuen soh 阅读全文

posted @ 2024-01-04 10:57 我和你并没有不同阅读(99) 评论(0) 推荐(0)

Selenium 隐藏浏览器指纹特征转载

摘要：转载自公众号 AirPython 大家好，我是安果！我们使用 Selenium 对网页进行爬虫时，如果不做任何处理直接进行爬取，会导致很多特征是暴露的对一些做了反爬的网站，做了特征检测，用来阻止一些恶意爬虫本篇文章将介绍几种常用的隐藏浏览器指纹特征的方式 1. 直接爬取目标对象： aHR0c 阅读全文

posted @ 2023-02-01 09:07 我和你并没有不同阅读(793) 评论(0) 推荐(0)

30 行代码实现，支付宝蚂蚁森林自动收能量！转载

摘要：作者 | xindoo 来源 | CSDN 博客，已获作者授权虽然我支付宝加了好多好友，平时有很多能量可以“偷”，但由于太懒，至今一棵树都没种成，所以心心念念把偷能量这事自动化。之前通过用代码模拟手机点按的方式，实现了朋友圈自动点赞（https://xindoo.blog.csdn.net/art 阅读全文

posted @ 2023-01-28 10:09 我和你并没有不同阅读(1042) 评论(0) 推荐(0)

如何用 Python 实现安卓机自动化？

摘要：转载自进击的Coder # 投屏软件：Scrcpy Scrcpy，全称 screen copy，是一款开源的手机无线投屏软件。而且还是跨平台的，无论是在 Linux、Windows 还是 macOS 上都能使用。项目地址： https://github.com/Genymobile/scrcp 阅读全文

posted @ 2022-11-08 18:25 我和你并没有不同阅读(1289) 评论(0) 推荐(1)

脑洞大开的爬虫解决思路转载：https://mp.weixin.qq.com/s/Bd-wz_RiRpYv8ufIbQTZDg

摘要：前言作为冷数据启动和丰富数据的重要工具，爬虫在业务发展中承担着重要的作用，我们业务在发展过程中积累了不少爬虫使用的经验，在此分享给大家，希望能对之后的业务发展提供一些技术选型方向上的思路,以更好地促进业务发展我们将会从以下几点来分享我们的经验爬虫的应用场景爬虫的技术选型实战详解：复杂场景下阅读全文

posted @ 2021-07-26 17:50 我和你并没有不同阅读(332) 评论(0) 推荐(0)

js逆向某东滑块转载 https://mp.weixin.qq.com/s/eZSTfduYS63-LOvkAofxqA

摘要：首先在此声明，本文章仅仅用于研究学习，不可用于任何商业活动，否则后果自负。如侵权请与我联系，立即删除。唠嗑俺来自河南，愿望我大河南平安！没错今天，我又来搞事情了，咱们今天学习一下某东登录时的滑块的加密。废话不多说了，开干。加密分析与定位当我们输入账号密码后，点击登录，首先映入眼帘的是一个滑阅读全文

posted @ 2021-07-26 09:50 我和你并没有不同阅读(1291) 评论(0) 推荐(1)

不能爬小程序，叫什么会爬虫【参考资料也要看】 https://mp.weixin.qq.com/s/oDG3k_qjMZaoygZmz9OUDw

摘要：上次写的如何给小孩约马术课过程，见这里 Python 约课[1]，本想一劳永逸，但是好景不长，预约系统升级了，而且还换了服务商，从之前的公众号 H5 应用，换成了小程序，之前编写的方式直接失效，孩子又没马骑了谁叫他遇到一个程序员老爸呢？这点事儿难不倒我，开干小程序的不同之处与访问 H5 不同阅读全文

posted @ 2021-07-26 09:30 我和你并没有不同阅读(695) 评论(0) 推荐(0)

写Python爬虫遇到的一些坑转载：https://mp.weixin.qq.com/s/kfxJ7EKFeunGcjvBr0l7ww

摘要：毕业论文缺了点数据，于是去爬了下某猫投诉。想想上次写爬虫还是一年前大数据课程的时候。这次写也依旧遇到了一些坑，有Python本身的，有爬虫的，于是记录下。 1.Unicode字符编码问题这段数据我是从summary，即摘要开始看的，summary的内容都是\xxxxx。summary内容： \u5 阅读全文

posted @ 2021-07-14 21:51 我和你并没有不同阅读(639) 评论(0) 推荐(0)

Selenium 爬取淘宝商品转载：https://mp.weixin.qq.com/s/7aul82HqxszH5jH9pSpZrA

摘要：引入相关的包 import osfrom urllib.parse import unquoteimport pandas as pdfrom selenium import webdriverfrom selenium.webdriver.common.by import By 使用 seleni 阅读全文

posted @ 2021-07-14 21:49 我和你并没有不同阅读(462) 评论(0) 推荐(0)

拒绝反爬虫！教你搞定爬虫验证码转载：https://mp.weixin.qq.com/s/WSG-qQgKiAit5Pua7XQGZg

摘要：使用验证码可以防止应用或者网站被恶意注册、攻击，对于网站、APP而言，大量的无效注册、重复注册甚至是恶意攻击很令人头痛。使用验证码能够很大程度上减少这些恶意操作。验证码变得越来越复杂，爬虫的工作也变得越发艰难。有时候我们必须通过验证码的验证才能够访问页面（如图1所示）。图1 验证码界面目前主流的阅读全文

posted @ 2021-06-21 09:19 我和你并没有不同阅读(1566) 评论(0) 推荐(0)

用 Python 登录主流网站转载：https://mp.weixin.qq.com/s/QqYAXTxj2gK0ehXfpdNrOA

摘要：不论是自然语言处理还是计算机视觉，做机器学习算法总会存在数据不足的情况，而这个时候就需要我们用爬虫获取一些额外数据。这个项目介绍了如何用 Python 登录各大网站，并用简单的爬虫获取一些有用数据，目前该项目已经提供了知乎、B 站、和豆瓣等 18 个网站的登录方法。项目地址： https://g 阅读全文

posted @ 2021-05-26 20:01 我和你并没有不同阅读(635) 评论(0) 推荐(0)

Scrapy 如何正确 Post 发送 JSON 数据转载：https://mp.weixin.qq.com/s/sy8pi9CdIRNEgCMgdJH87Q

摘要：我们知道，HTTP请求的 POST 方式，提交上去的数据有很多种格式。例如JSON/form-data/x-www-form-urlencoded等等。我们在 Postman 的 POST 请求里面，可以看到这些数据格式，如下图所示：虽然同样都是 POST 方式，但是有些网站只能使用特定的格式才能阅读全文

posted @ 2021-05-26 19:56 我和你并没有不同阅读(342) 评论(0) 推荐(0)

scray cookiejar

摘要：参考：https://blog.csdn.net/u013210620/article/details/80283637 手动操作cookie点赞 # -*- coding: utf-8 -*- import scrapy from bs4 import BeautifulSoup from scr 阅读全文

posted @ 2021-05-15 21:34 我和你并没有不同阅读(99) 评论(0) 推荐(0)

使用Chrome浏览器调试nodejs代码转载：https://blog.csdn.net/zhouzying/article/details/98960721

摘要：今天给大家分享一下在chrome浏览器上调试nodejs代码的步骤。下面是操作：第一步，在命令行输入调试命令：node --inspect-brk app.js这是调试命令的一些参数（来自官网的）： Command-line optionsThe following table lists the 阅读全文

posted @ 2021-05-03 21:31 我和你并没有不同阅读(333) 评论(0) 推荐(0)

md5加密（32位16进制数）

摘要：爬虫大佬的网站：https://github.com/01ly hashlib.md5 重定向： import requests res = requests.get(url="", headers={}, allow_redirects=False) # 禁止重定向 next_url = res. 阅读全文

posted @ 2021-05-02 18:53 我和你并没有不同阅读(437) 评论(0) 推荐(0)

我和你并没有不同

随笔分类 - 爬虫