2024年12月6日

selenium - java调用selenium

摘要: 驱动 首先,要保证机子上装了谷歌浏览器 然后,下载浏览器驱动 chromedriver.exe 最新版本:https://googlechromelabs.github.io/chrome-for-testing/ 老版本:https://chromedriver.storage.googleapi 阅读全文

posted @ 2024-12-06 16:12 疯狂的妞妞 阅读(19) 评论(0) 推荐(0) 编辑

selenium - chrome-options

摘要: ‌ChromeOptions‌ 是 Selenium 库中的一个类,用于配置 Chrome 浏览器的启动参数和功能。 通过 ChromeOptions,用户可以自定义浏览器的行为,以满足不同的测试或爬虫需求。 主要功能: ‌ 页面加载策略‌:可以设置页面加载策略,例如使用eager模式加快页面加载速 阅读全文

posted @ 2024-12-06 16:12 疯狂的妞妞 阅读(18) 评论(0) 推荐(0) 编辑

爬虫 - xpath

摘要: xpath 常用规则 |表达式 |功能 | | | | |nodename |选取此节点的所有子节点 | |/ |从根节点选取(取子节点) | |// |从匹配的节点中选择子节点(不需要考虑位置) | |. |选取当前节点 | |.. |选取当前节点的父节点 | |@ |选取属性 | |* |匹配任 阅读全文

posted @ 2024-12-06 15:46 疯狂的妞妞 阅读(4) 评论(0) 推荐(0) 编辑

爬虫 - css selector

摘要: CSS SELECTOR 功能:分析静态 html 代码,定位到具体的界面元素。 名字中有 CSS,所以与前端的 CSS 样式(Cascading Style Sheets)真的有关, 在样式中,通过选择器定位元素,进行界面渲染;而爬虫通过选择器定位元素,进行界面抓取, 二者有着类似的 API,前端 阅读全文

posted @ 2024-12-06 15:45 疯狂的妞妞 阅读(6) 评论(0) 推荐(0) 编辑

爬虫 - helloworld

摘要: 安装依赖库 pip install selenium helloworld 效果:弹出浏览器,输入 python,之后自动点击 “百度一下”,5秒之后关闭浏览器。 import time from selenium import webdriver from selenium.webdriver.c 阅读全文

posted @ 2024-12-06 11:43 疯狂的妞妞 阅读(3) 评论(0) 推荐(0) 编辑

requests - 会话保持

摘要: 使用场景:后台启用会话,登录之后,只要保持会话,就可以持续访问接口。 需要注意会话保持,登录之后不要断线; 为了防止 CSRF 攻击,登录参数除了账号密码,有时候还会有个 token,这个要通过爬虫抓取; import requests # 目标网站的登录URL login_url = 'http: 阅读全文

posted @ 2024-12-06 09:30 疯狂的妞妞 阅读(6) 评论(0) 推荐(0) 编辑

requests - helloworld

摘要: 抓取静态界面 import requests headers={ "User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.122 S 阅读全文

posted @ 2024-12-06 09:27 疯狂的妞妞 阅读(1) 评论(0) 推荐(0) 编辑

python - sqlachemy另类用法

摘要: 这里只是给出一个思路,或许对于未来解决问题有一些参考意义。 仿 JAP 的写法 这种写法很像 java 环境中的 JPA,如果引入模版引擎,则可以大幅增强实用性。 但是,在 python 环境中,这不符合主流的 ORM 框架。 潜在风险:代码检测的时候,可能会被误判,因为我们定义了一大堆空的函数。 阅读全文

posted @ 2024-12-06 08:43 疯狂的妞妞 阅读(3) 评论(0) 推荐(0) 编辑

导航