HelloJacker - 博客园

2024年3月12日

摘要：插入数据 result = collection.insert_one(students) result = collection.insert_many([students]) 查询数据 result = collection.find_one({'name': 'Mike'}) # 大于20 r 阅读全文

posted @ 2024-03-12 16:29 HelloJacker 阅读(16) 评论(0) 推荐(0)

2024年3月9日

Scrapy框架理解

摘要： Engine（引擎）：负责处理数据的流转和逻辑处理 == 处理器 Scheduler（调度器）：负责request请求的调动规则 Spiders（蜘蛛）：负责站点的爬取逻辑和页面解析规则 Spider Middlewares：负责实现Spiders和Engine的之间的item和request处理阅读全文

posted @ 2024-03-09 15:59 HelloJacker 阅读(22) 评论(0) 推荐(0)

2024年3月5日

playwright

摘要：代码生成器： playwright codegen -o script.py -b chromium (-device iphone11) 移动端： from playwright.sync_api import sync_playwright with sync_playwright() as p 阅读全文

posted @ 2024-03-05 21:11 HelloJacker 阅读(70) 评论(0) 推荐(0)

selenium的基本使用

摘要： 1. 基本使用 browser.current_url browser.get_cookies() browser.page_source 2. 定位元素 from selenium.webdriver.common.by import By input_first = browser.find_e 阅读全文

posted @ 2024-03-05 09:58 HelloJacker 阅读(46) 评论(0) 推荐(0)

2024年2月23日

爬虫之css选择器

摘要：用soup.select方法 # panel节点内部的panel—heading节点 print(soup.select('.panel .panel-heading')) # ul里面的li print(soup.select('ul li')) # id为list-2的内部element节点 p 阅读全文

posted @ 2024-02-23 17:02 HelloJacker 阅读(70) 评论(0) 推荐(0)

爬虫之bs4

摘要： 1. 节点选择器都是Tag类型，直接调用节点名称可选择节点，调用string属性得到节点内容文本。 2. 提取信息获取名称 # print(soup.title.name) 获取属性 # print(soup.p.attrs) # print(soup.p['name']) # print(so 阅读全文

posted @ 2024-02-23 16:33 HelloJacker 阅读(39) 评论(0) 推荐(0)

2024年2月22日

爬虫之正则表达式

摘要： 1. Match 从字符串起始位置开始匹配，两个参数（正则表达式，字符串） .*代表匹配前面的字符无限次 content = 'Hello 1234567 World_This is a Regex Demo' # 通用匹配 result = re.match('^Hello.*Demo$', co 阅读全文

posted @ 2024-02-22 17:01 HelloJacker 阅读(31) 评论(0) 推荐(0)

2024年2月21日

Session与Cookies区别

摘要： Session在服务端，是一个抽象概念，开发者为了实现中断和继续等操作，将user agent 和 server 之间一对一的交互，抽象为“会话”用来保存用户的Session信息； Cookie在客户端，是一个实际存在的东西，http协议中定义在header中的字段。可以认为是 session 的一阅读全文

posted @ 2024-02-21 21:57 HelloJacker 阅读(30) 评论(0) 推荐(0)

HTTP基础原理

摘要：组成： scheme：//【username：password】hostname【：port】【/path】【？query】【#fragment】默认端口： http: 80 https: 443 HTTP与HTTPS区别 HTTP：超文本传输协议 HTTPS:安全版HTTP 都属于应用层协议，基阅读全文

posted @ 2024-02-21 16:19 HelloJacker 阅读(16) 评论(0) 推荐(0)

2024年2月17日

控制台限制

摘要：一律不在此处暂停条件断点false 停用断点抓包分析定时器、构造器置空替换js(固定文件js) function关键字启动 eval 阅读全文

posted @ 2024-02-17 08:57 HelloJacker 阅读(17) 评论(0) 推荐(0)

公告