随笔分类 - 爬虫简单学习

今日内容，爬虫及Flask框架入门

摘要：加代理，cookie，header，加入selenium 加代理 # 在爬虫中间件中 def get_proxy(self): import requests res=requests.get('http://192.168.1.143:5010/get/').json() if res.get(' 阅读全文

posted @ 2022-12-08 19:38 你好你好你好丶编辑

今日内容 scrapy的使用提高爬虫效率

摘要：scrapy架构介绍引擎(ENGINE) 引擎负责控制系统所有组件之间的数据流，并在某些动作发生时触发事件。有关详细信息，请参见上面的数据流部分调度器(SCHEDULER) 用来接收引擎发过来的请求，压入队列中，并在引擎再次请求的时候返回，可以想象成一个URL的优先级队列，由它来决定下一个要抓取阅读全文

posted @ 2022-12-07 18:26 你好你好你好丶编辑

今日内容爬取京东网站数据

posted @ 2022-12-06 21:12 你好你好你好丶编辑

今日内容 selenium的使用

摘要：bs4搜索文档树 from bs4 import BeautifulSoup html_doc = """ <html><head><title>The Dormouse's story</title></head> <body> <p id="my p" class="title">asdfasd 阅读全文

posted @ 2022-11-25 20:33 你好你好你好丶编辑

今日内容爬虫代理池搭建

摘要：request高级用法 ssl认证 # https 和http有什么区别 -https=http+ssl/tsl 证书 # 没有被认证过的机构，签发的证书，用的时候，浏览器会提示不安全 # 1 ssl认证 # 1.1 不认证证书了 # import requests # respone = requ 阅读全文

posted @ 2022-11-24 20:39 你好你好你好丶编辑

今日内容爬虫简单学习

摘要：爬虫介绍 # 爬虫：spider，网络蜘蛛 # 本质原理： -现在所有的软件原理：大部分都是基于http请求发送和获取数据的 -pc端的网页 -移动端app -模拟发送http请求，从别人的服务端获取数据 -绕过反扒：不同程序反扒措施不一样，比较复杂 # 爬虫原理 -发送http请求【request 阅读全文

posted @ 2022-11-23 21:12 你好你好你好丶编辑