随笔分类 -  爬虫

摘要:1. 加代理,cookie,header,加入selenium 1.1 加代理 # 在爬虫中间件中 def get_proxy(self): import requests res=requests.get('http://192.168.1.143:5010/get/').json() if re 阅读全文
posted @ 2022-12-08 17:19 |相得益张| 阅读(190) 评论(0) 推荐(0) 编辑
摘要:1.scrapy 架构介绍 Scrapy一个开源和协作的框架,其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的,使用它可以以快速、简单、可扩展的方式从网站中提取所需的数据。但目前Scrapy的用途十分广泛,可用于如数据挖掘、监测和自动化测试等领域,也可以应用在获取API所返回的数据(例如 阅读全文
posted @ 2022-12-07 20:46 |相得益张| 阅读(34) 评论(0) 推荐(0) 编辑
摘要:1. xpath的使用 1. html中选择标签,可以使用的通用方式 css 选择 xpath 选择 Xpath 即为XML路径语言(XML Path Language),它是一种用来确定XML文档中某部分位置的语言 2. 语法的简单介绍 nodename 选取此节点的所有子节点 / 从根节点选取 阅读全文
posted @ 2022-12-06 21:42 |相得益张| 阅读(114) 评论(0) 推荐(0) 编辑
摘要:1. bs4搜索文档树 from bs4 import BeautifulSoup html_doc = """ <html><head><title>The Dormouse's story</title></head> <body> <p id="my p" class="title">asdf 阅读全文
posted @ 2022-11-25 20:23 |相得益张| 阅读(302) 评论(0) 推荐(0) 编辑
摘要:1. 测试频率 # 登录后的cookie,起100个线程,每个线程里死循环去点赞 import requests from threading import Thread def task(): while True: data = { 'linkId': '36996038' } header = 阅读全文
posted @ 2022-11-24 19:57 |相得益张| 阅读(658) 评论(0) 推荐(0) 编辑
摘要:1. 爬虫介绍 1. 爬虫:spider,网络蜘蛛 2. 本质原理: 现在所有的软件原理:大部分都是基于http请求发送和获取数据的 pc端的网页 移动端app 模拟发送http请求,从别人的服务端获取数据 绕过反扒:不同程序反扒措施不一样,比较复杂 3. 爬虫原理 发送http请求【request 阅读全文
posted @ 2022-11-23 22:41 |相得益张| 阅读(294) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示