随笔分类 -  爬虫

1 2 3 下一页

基于 Selenium 的 Python 自动化测试框架
摘要:SeleniumBase:功能全面的浏览器自动化框架。该项目是基于 Selenium 的 Python 自动化测试框架,集成了爬虫、自动化测试和生成报告等多种功能。它提供了丰富的示例,并且独特的 UC 模式,可以帮助开发者在进行浏览器自动化操作时避免被检测出来。 from seleniumbase  阅读全文

posted @ 2024-08-29 10:41 我和你并没有不同 阅读(31) 评论(0) 推荐(0) 编辑

反爬
摘要:23、undetected-chromedriver:绕过反爬检测的 Python 库。这是一个经过优化的 Selenium WebDriver 补丁,专门用于防止浏览器自动化过程中,触发反机器人机制。它能够隐藏浏览器特征(指纹),使用起来十分方便,就像一个 Python 的第三方库一样。 impo 阅读全文

posted @ 2024-05-28 09:26 我和你并没有不同 阅读(78) 评论(0) 推荐(0) 编辑

这个Python库把Selenium按在地上摩擦!
摘要:转自:快学pythonDrissionPage 是一个基于 python 的网页自动化工具。它既能控制浏览器,也能收发数据包,还能把两者合而为一。可兼顾浏览器自动化的便利性和 requests 的高效率。它功能强大,内置无数人性化设计和便捷功能。它的语法简洁而优雅,代码量少,对新手友好。 背景 用 阅读全文

posted @ 2024-05-13 10:20 我和你并没有不同 阅读(21) 评论(0) 推荐(0) 编辑

如何搭建一个爬虫代理服务?
摘要:由于之前一直在做爬虫采集相关的开发,这个过程那肯定少不了跟「代理 IP 」打交道,这篇文章就来记录一下,如何实现一个爬虫代理服务,本篇文章主要以讲解思路为主。 起因 做过爬虫的人应该都知道,抓的网站和数据多了,如果爬虫抓取速度过快,免不了触发网站的防爬机制。而这些网站应对爬虫的办法,几乎用的同一招就 阅读全文

posted @ 2024-04-26 14:58 我和你并没有不同 阅读(86) 评论(0) 推荐(0) 编辑

scrapy的暂停与重启
摘要:创建爬虫项目: scrapy startproject fileSpider 进入项目后,查看爬虫项目下拥有的爬虫模板 cd fileSpider scrapy genspider -l 创建一个CrawlSpider爬虫: scrapy genspider -t crawl weisuen soh 阅读全文

posted @ 2024-01-04 10:57 我和你并没有不同 阅读(60) 评论(0) 推荐(0) 编辑

Selenium 隐藏浏览器指纹特征 转载
摘要:转载自公众号 AirPython 大家好,我是安果! 我们使用 Selenium 对网页进行爬虫时,如果不做任何处理直接进行爬取,会导致很多特征是暴露的 对一些做了反爬的网站,做了特征检测,用来阻止一些恶意爬虫 本篇文章将介绍几种常用的隐藏浏览器指纹特征的方式 1. 直接爬取 目标对象: aHR0c 阅读全文

posted @ 2023-02-01 09:07 我和你并没有不同 阅读(621) 评论(0) 推荐(0) 编辑

30 行代码实现,支付宝蚂蚁森林自动收能量!转载
摘要:作者 | xindoo 来源 | CSDN 博客,已获作者授权 虽然我支付宝加了好多好友,平时有很多能量可以“偷”,但由于太懒,至今一棵树都没种成,所以心心念念把偷能量这事自动化。之前通过用代码模拟手机点按的方式,实现了朋友圈自动点赞(https://xindoo.blog.csdn.net/art 阅读全文

posted @ 2023-01-28 10:09 我和你并没有不同 阅读(848) 评论(0) 推荐(0) 编辑

如何用 Python 实现安卓机自动化?
摘要:转载自 进击的Coder # 投屏软件:Scrcpy Scrcpy,全称 screen copy,是一款开源的手机无线投屏软件。 而且还是跨平台的,无论是在 Linux、Windows 还是 macOS 上都能使用。 项目地址: https://github.com/Genymobile/scrcp 阅读全文

posted @ 2022-11-08 18:25 我和你并没有不同 阅读(968) 评论(0) 推荐(1) 编辑

脑洞大开的爬虫解决思路 转载:https://mp.weixin.qq.com/s/Bd-wz_RiRpYv8ufIbQTZDg
摘要:前言 作为冷数据启动和丰富数据的重要工具,爬虫在业务发展中承担着重要的作用,我们业务在发展过程中积累了不少爬虫使用的经验,在此分享给大家,希望能对之后的业务发展提供一些技术选型方向上的思路,以更好地促进业务发展 我们将会从以下几点来分享我们的经验 爬虫的应用场景 爬虫的技术选型 实战详解:复杂场景下 阅读全文

posted @ 2021-07-26 17:50 我和你并没有不同 阅读(292) 评论(0) 推荐(0) 编辑

js逆向某东滑块 转载 https://mp.weixin.qq.com/s/eZSTfduYS63-LOvkAofxqA
摘要:首先在此声明,本文章仅仅用于研究学习,不可用于任何商业活动,否则后果自负。如侵权请与我联系,立即删除。 唠嗑 俺来自河南,愿望我大河南平安! 没错今天,我又来搞事情了,咱们今天学习一下某东登录时的滑块的加密。废话不多说了,开干。 加密分析与定位 当我们输入账号密码后,点击登录,首先映入眼帘的是一个滑 阅读全文

posted @ 2021-07-26 09:50 我和你并没有不同 阅读(1176) 评论(0) 推荐(1) 编辑

不能爬小程序,叫什么会爬虫 【参考资料也要看】 https://mp.weixin.qq.com/s/oDG3k_qjMZaoygZmz9OUDw
摘要:上次写的如何给小孩约马术课过程,见这里 Python 约课[1], 本想一劳永逸,但是好景不长,预约系统升级了,而且还换了服务商,从之前的公众号 H5 应用,换成了小程序,之前编写的方式直接失效,孩子又没马骑了 谁叫他遇到一个程序员老爸呢?这点事儿难不倒我,开干 小程序的不同之处 与访问 H5 不同 阅读全文

posted @ 2021-07-26 09:30 我和你并没有不同 阅读(587) 评论(0) 推荐(0) 编辑

写Python爬虫遇到的一些坑 转载:https://mp.weixin.qq.com/s/kfxJ7EKFeunGcjvBr0l7ww
摘要:毕业论文缺了点数据,于是去爬了下某猫投诉。想想上次写爬虫还是一年前大数据课程的时候。这次写也依旧遇到了一些坑,有Python本身的,有爬虫的,于是记录下。 1.Unicode字符编码问题 这段数据我是从summary,即摘要开始看的,summary的内容都是\xxxxx。summary内容: \u5 阅读全文

posted @ 2021-07-14 21:51 我和你并没有不同 阅读(563) 评论(0) 推荐(0) 编辑

Selenium 爬取淘宝商品 转载:https://mp.weixin.qq.com/s/7aul82HqxszH5jH9pSpZrA
摘要:引入相关的包 import osfrom urllib.parse import unquoteimport pandas as pdfrom selenium import webdriverfrom selenium.webdriver.common.by import By 使用 seleni 阅读全文

posted @ 2021-07-14 21:49 我和你并没有不同 阅读(410) 评论(0) 推荐(0) 编辑

拒绝反爬虫!教你搞定爬虫验证码 转载:https://mp.weixin.qq.com/s/WSG-qQgKiAit5Pua7XQGZg
摘要:使用验证码可以防止应用或者网站被恶意注册、攻击,对于网站、APP而言,大量的无效注册、重复注册甚至是恶意攻击很令人头痛。使用验证码能够很大程度上减少这些恶意操作。验证码变得越来越复杂,爬虫的工作也变得越发艰难。有时候我们必须通过验证码的验证才能够访问页面(如图1所示)。 图1 验证码界面 目前主流的 阅读全文

posted @ 2021-06-21 09:19 我和你并没有不同 阅读(1403) 评论(0) 推荐(0) 编辑

用 Python 登录主流网站 转载:https://mp.weixin.qq.com/s/QqYAXTxj2gK0ehXfpdNrOA
摘要:不论是自然语言处理还是计算机视觉,做机器学习算法总会存在数据不足的情况,而这个时候就需要我们用爬虫获取一些额外数据。 这个项目介绍了如何用 Python 登录各大网站,并用简单的爬虫获取一些有用数据,目前该项目已经提供了知乎、B 站、和豆瓣等 18 个网站的登录方法。 项目地址: https://g 阅读全文

posted @ 2021-05-26 20:01 我和你并没有不同 阅读(507) 评论(0) 推荐(0) 编辑

Scrapy 如何正确 Post 发送 JSON 数据 转载:https://mp.weixin.qq.com/s/sy8pi9CdIRNEgCMgdJH87Q
摘要:我们知道,HTTP请求的 POST 方式,提交上去的数据有很多种格式。例如JSON/form-data/x-www-form-urlencoded等等。我们在 Postman 的 POST 请求里面,可以看到这些数据格式,如下图所示: 虽然同样都是 POST 方式,但是有些网站只能使用特定的格式才能 阅读全文

posted @ 2021-05-26 19:56 我和你并没有不同 阅读(288) 评论(0) 推荐(0) 编辑

scray cookiejar
摘要:参考:https://blog.csdn.net/u013210620/article/details/80283637 手动操作cookie点赞 # -*- coding: utf-8 -*- import scrapy from bs4 import BeautifulSoup from scr 阅读全文

posted @ 2021-05-15 21:34 我和你并没有不同 阅读(90) 评论(0) 推荐(0) 编辑

使用Chrome浏览器调试nodejs代码 转载:https://blog.csdn.net/zhouzying/article/details/98960721
摘要:今天给大家分享一下在chrome浏览器上调试nodejs代码的步骤。下面是操作: 第一步,在命令行输入调试命令:node --inspect-brk app.js这是调试命令的一些参数(来自官网的): Command-line optionsThe following table lists the 阅读全文

posted @ 2021-05-03 21:31 我和你并没有不同 阅读(314) 评论(0) 推荐(0) 编辑

md5加密 (32位16进制数)
摘要:爬虫大佬的网站:https://github.com/01ly hashlib.md5 重定向: import requests res = requests.get(url="", headers={}, allow_redirects=False) # 禁止重定向 next_url = res. 阅读全文

posted @ 2021-05-02 18:53 我和你并没有不同 阅读(411) 评论(0) 推荐(0) 编辑

响应数据response的加密分析 转载:https://mp.weixin.qq.com/s/Kri1rxVADjcA03L2wAglCA
摘要:在做爬虫逆向中,我们绝大多数遇到的都是请求参数或者cookie加密之类的分析 今天给大家分享一个不一样的,属于响应数据response的加密 话不多说,网站地址如下: aHR0cDovL2p6c2MubW9odXJkLmdvdi5jbi9kYXRhL2NvbXBhbnk= 分析 response加密 阅读全文

posted @ 2021-04-28 09:53 我和你并没有不同 阅读(1880) 评论(0) 推荐(0) 编辑

1 2 3 下一页