03 2022 档案
摘要:图片懒加载: 主要是应用在展示图片的网页中的一种技术,该技术是指当网页刷新后,先加载局部的几张图片数据即可,随着用户滑动滚轮,当图片被显示在浏览器的可视化区域范围的话,在动态将其图片请求加载出来即可。(图片数据是动态加载出来)。 如何实现图片懒加载/动态加载? 使用img标签的伪属性(指的是自定义的
阅读全文
摘要:现在很多网站启用了防盗链反爬,防止服务器上的资源被人恶意盗取。什么是防盗链呢? 以图片为例,访问图片要从他的网站访问才可以,否则直接访问图片地址得不到图片 练习,抓取微博图片,url:http://blog.sina.com.cn/lm/pic/,将页面中某一组系列详情页的图片进行抓取保存,比如三里
阅读全文
摘要:模拟登录古诗文网 url:https://so.gushiwen.cn/user/login.aspx?from=http://so.gushiwen.cn/user/collect.aspx 通过浏览器抓包,我们分析登录接口 使用requests模拟登录 import requests from
阅读全文
摘要:日常工作中,一般各业务接口会对登录接口有所依赖,而登录接口中会存在有要求输入图片验证码的问题,最终导致爬取数据或者接口自动化测试难以顺利展开。 如何解决这种办法勒? 测试:自己公司的系统,可以叫开发屏蔽或者给一个万能验证码 爬虫:这种只能自行处理,下面小编将结合第三方识别工具提取并且识别验证码信息
阅读全文
摘要:centos7 自带有 python,但是却是 python2 版本的 python,如果你想安装个python3怎么办呢? 如果直接删除python2的话,可能会引起其他的问题,因为有些东西是依赖python2的,最好的解决办法是python3和python2共存,新安装一个python3的环境。
阅读全文
摘要:什么是代理 用来转发请求和响应 为何要使用代理? 有些时候,需要对网站服务器发起高频的请求,网站的服务器会检测到这样的异常现象,则会讲请求对应机器的ip地址加入黑名单,则该ip再次发起的请求,网站服务器就不在受理,则我们就无法再次爬取该网站的数据; 使用代理后,网站服务器接收到的请求,最终是由代理服
阅读全文
摘要:什么是cookie? cookie的本质就是一组数据(键值对的形式存在) 是由服务器创建,返回给客户端,最终会保存在客户端浏览器中。 如果客户端保存了cookie,则下次再次访问该服务器,就会携带cookie进行网络访问 典型案例:网站的免密登录 需求:爬取雪球网咨询数据 通过浏览器抓包工具分析,页
阅读全文
摘要:环境安装、导入模块 pip install lxml from lxml import etree etree.HTML(page_text) #HTML()专门用来解析网络请求到的页面源码数据 数据解析 a:调用etree对象的xpath方法结合不同形式的xpath表达式进行标签定位和数据提取 b
阅读全文
摘要:环境安装,导入模块 pip install bs4 pip install lxml #需要用到lxml解析 from bs4 import Beautifulsoup 实例化一个BeautifulSoup的对象,然后把即将被解析的页面源码数据加载到该对象中 本地文件:BeautifulSoup(f
阅读全文
摘要:需求:爬取药监总局网址前5页的企业名称、许可证编号、法人 分析: 1、我们需要的数据,在企业详情页面,都是可以获取到。 先进入到任意一家企业的详情页中,查看企业的详情数据是否为动态加载数据? 基于抓包工具进行局部搜索(network中路径有浏览器地址栏中的一致的数据包中进行局部搜索) 搜索的到:不是
阅读全文
摘要:1、基本介绍 requests就是爬虫中一个基于网络请求的模块。 作用:模拟浏览器上网的。 2、环境安装:pip install requests 3、编码流程 指定URL(相当于打开浏览器输入网址) 发起请求(相当于按下回车) 获取响应数据(从指定url中爬取到数据) 持久化存储 4、例如我们做一
阅读全文
摘要:1、什么是爬虫? -就是编写程序,模拟浏览器上网,让其去互联网中抓取数据的过程 模拟: 浏览器本身就是一个纯天然的爬虫工具,爬虫相关的模块都是基于浏览器为基础开发出来的。 注意:日后只要是你的爬虫程序没有爬取到你想要的数据,只有一个原因: 就是你的爬虫程序模拟的力度不够! 抓取: 抓取网页数据分两种
阅读全文