上一页 1 2 3 4 5 6 7 8 ··· 14 下一页

2023年3月14日

摘要: 用Session会保留访问网页的一些信息 ,如 Cookie 更高效 还有一种写法: 原因是源码中session方法 return Session 类 两种写法本质是一样的 报错 400: 成功写法: 或 有时候爬虫需要知道数据的总页数,可以去响应头或者返回数据里面找: 阅读全文
posted @ 2023-03-14 16:46 明媚的夏午 阅读(143) 评论(0) 推荐(0) 编辑
 
摘要: https://moh.nugmyanmar.org/news-media/ 翻页时 post请求 打开postman 输入请求网址 查看网页载荷 将载荷以key:value的方式输入 阅读全文
posted @ 2023-03-14 15:26 明媚的夏午 阅读(26) 评论(0) 推荐(0) 编辑

2023年3月13日

摘要: if page == 1: res = utils.multi_requests(url='https://moh.nugmyanmar.org/news-media/') selector = etree.HTML(res.text) tag_groups = selector.xpath("// 阅读全文
posted @ 2023-03-13 11:23 明媚的夏午 阅读(30) 评论(0) 推荐(0) 编辑

2023年3月6日

摘要: tag_groups_3 = self.generate_groups_1(tag_groups_2,['div > table > tbody > tr > td', 'table > tbody > tr > td', 'div > div','p >img']) 方法一: tag_groups 阅读全文
posted @ 2023-03-06 14:58 明媚的夏午 阅读(13) 评论(0) 推荐(0) 编辑

2023年3月2日

摘要: with open("regulation_news_02.json", "w") as file: file.write(json.dumps(data, indent=2, ensure_ascii=False)) 报错: Traceback (most recent call last): F 阅读全文
posted @ 2023-03-02 12:00 明媚的夏午 阅读(30) 评论(0) 推荐(0) 编辑

2023年2月14日

摘要: 1、keyBERT(英文效果>中文) 链接:https://hidadeng.github.io/blog/keybert_tutorial/ 用法: !pip3 install gensim==4.0.0 !pip3 install keybert==0.5.1!pip3 install gens 阅读全文
posted @ 2023-02-14 15:06 明媚的夏午 阅读(632) 评论(0) 推荐(0) 编辑

2023年2月1日

摘要: 示例网站: 1、点页码只有后一部分start=1 改变 2、点步长只有第一次url改变 构造方法 :尝试在1后加上2的一部分 阅读全文
posted @ 2023-02-01 16:00 明媚的夏午 阅读(13) 评论(0) 推荐(0) 编辑

2023年1月31日

摘要: 参考 : https://cuiqingcai.com/7048.html ProxyPool 简易高效的代理池,提供如下功能: 定时抓取免费代理网站,简易可扩展。 使用 Redis 对代理进行存储并对代理可用性进行排序。 定时测试和筛选,剔除不可用代理,留下可用代理。 提供代理 API,随机取用测 阅读全文
posted @ 2023-01-31 15:04 明媚的夏午 阅读(1095) 评论(0) 推荐(0) 编辑

2023年1月28日

摘要: seleniumwire from seleniumwire import webdriver参考 https://crifan.github.io/selenium_summary/website/plugin/selenium_wire.html from webdriver_manager.c 阅读全文
posted @ 2023-01-28 17:42 明媚的夏午 阅读(10) 评论(0) 推荐(0) 编辑

2023年1月6日

摘要: python访问excel链接,读取内容 res_url = ‘https://dispozitive.anm.ro/f1f2-display’ res = requests.get(res_url, timeout=60) selector = etree.HTML(res.text) xls_l 阅读全文
posted @ 2023-01-06 15:25 明媚的夏午 阅读(264) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 ··· 14 下一页