随笔分类 - 爬虫简单学习
摘要:加代理,cookie,header,加入selenium 加代理 # 在爬虫中间件中 def get_proxy(self): import requests res=requests.get('http://192.168.1.143:5010/get/').json() if res.get('
阅读全文
摘要:scrapy架构介绍 引擎(ENGINE) 引擎负责控制系统所有组件之间的数据流,并在某些动作发生时触发事件。有关详细信息,请参见上面的数据流部分 调度器(SCHEDULER) 用来接收引擎发过来的请求,压入队列中,并在引擎再次请求的时候返回,可以想象成一个URL的优先级队列,由它来决定下一个要抓取
阅读全文
摘要:xpath的使用 xpath作为XML路径语言(XML Path Language),它是一种用来确定XML文档中某部分位置的语言 简单语法: | nodename | 选取此节点的所有子节点 | | | | | / | 从根节点选取 /body/div | | / / | 从匹配选择的当前节点选择
阅读全文
摘要:bs4搜索文档树 from bs4 import BeautifulSoup html_doc = """ <html><head><title>The Dormouse's story</title></head> <body> <p id="my p" class="title">asdfasd
阅读全文
摘要:request高级用法 ssl认证 # https 和http有什么区别 -https=http+ssl/tsl 证书 # 没有被认证过的机构,签发的证书,用的时候,浏览器会提示不安全 # 1 ssl认证 # 1.1 不认证证书了 # import requests # respone = requ
阅读全文
摘要:爬虫介绍 # 爬虫:spider,网络蜘蛛 # 本质原理: -现在所有的软件原理:大部分都是基于http请求发送和获取数据的 -pc端的网页 -移动端app -模拟发送http请求,从别人的服务端获取数据 -绕过反扒:不同程序反扒措施不一样,比较复杂 # 爬虫原理 -发送http请求【request
阅读全文