2022 年 3月随笔档案 - Tony_xiao

requests高级之懒加载

摘要：图片懒加载：主要是应用在展示图片的网页中的一种技术，该技术是指当网页刷新后，先加载局部的几张图片数据即可，随着用户滑动滚轮，当图片被显示在浏览器的可视化区域范围的话，在动态将其图片请求加载出来即可。（图片数据是动态加载出来）。如何实现图片懒加载/动态加载？使用img标签的伪属性（指的是自定义的阅读全文

posted @ 2022-03-24 23:20 Tony_xiao 阅读(278) 评论(0) 推荐(0) 编辑

request高级之防盗链

摘要：现在很多网站启用了防盗链反爬，防止服务器上的资源被人恶意盗取。什么是防盗链呢？以图片为例，访问图片要从他的网站访问才可以，否则直接访问图片地址得不到图片练习，抓取微博图片，url：http://blog.sina.com.cn/lm/pic/，将页面中某一组系列详情页的图片进行抓取保存，比如三里阅读全文

posted @ 2022-03-23 00:00 Tony_xiao 阅读(87) 评论(0) 推荐(0) 编辑

request高级之模拟登录(动态参数)

摘要：模拟登录古诗文网 url：https://so.gushiwen.cn/user/login.aspx?from=http://so.gushiwen.cn/user/collect.aspx 通过浏览器抓包，我们分析登录接口使用requests模拟登录 import requests from 阅读全文

posted @ 2022-03-21 23:58 Tony_xiao 阅读(204) 评论(0) 推荐(0) 编辑

requests高级之图形验证码

摘要：日常工作中，一般各业务接口会对登录接口有所依赖，而登录接口中会存在有要求输入图片验证码的问题，最终导致爬取数据或者接口自动化测试难以顺利展开。如何解决这种办法勒？测试：自己公司的系统，可以叫开发屏蔽或者给一个万能验证码爬虫：这种只能自行处理，下面小编将结合第三方识别工具提取并且识别验证码信息阅读全文

posted @ 2022-03-21 22:49 Tony_xiao 阅读(482) 评论(0) 推荐(0) 编辑

CentOS下安装python3.6

摘要：centos7 自带有 python，但是却是 python2 版本的 python，如果你想安装个python3怎么办呢？如果直接删除python2的话，可能会引起其他的问题，因为有些东西是依赖python2的，最好的解决办法是python3和python2共存，新安装一个python3的环境。阅读全文

posted @ 2022-03-20 23:49 Tony_xiao 阅读(2600) 评论(0) 推荐(0) 编辑

requests高级之代理

摘要：什么是代理用来转发请求和响应为何要使用代理？有些时候，需要对网站服务器发起高频的请求，网站的服务器会检测到这样的异常现象，则会讲请求对应机器的ip地址加入黑名单，则该ip再次发起的请求，网站服务器就不在受理，则我们就无法再次爬取该网站的数据；使用代理后，网站服务器接收到的请求，最终是由代理服阅读全文

posted @ 2022-03-20 13:10 Tony_xiao 阅读(471) 评论(0) 推荐(0) 编辑

requests高级之cookie

摘要：什么是cookie? cookie的本质就是一组数据（键值对的形式存在）是由服务器创建，返回给客户端，最终会保存在客户端浏览器中。如果客户端保存了cookie，则下次再次访问该服务器，就会携带cookie进行网络访问典型案例：网站的免密登录需求：爬取雪球网咨询数据通过浏览器抓包工具分析，页阅读全文

posted @ 2022-03-20 10:29 Tony_xiao 阅读(511) 评论(0) 推荐(0) 编辑

数据解析之xpath

摘要：环境安装、导入模块 pip install lxml from lxml import etree etree.HTML(page_text) #HTML()专门用来解析网络请求到的页面源码数据数据解析 a：调用etree对象的xpath方法结合不同形式的xpath表达式进行标签定位和数据提取 b 阅读全文

posted @ 2022-03-19 23:09 Tony_xiao 阅读(101) 评论(0) 推荐(0) 编辑

数据解析之bs4

摘要：环境安装，导入模块 pip install bs4 pip install lxml #需要用到lxml解析 from bs4 import Beautifulsoup 实例化一个BeautifulSoup的对象，然后把即将被解析的页面源码数据加载到该对象中本地文件：BeautifulSoup(f 阅读全文

posted @ 2022-03-19 22:59 Tony_xiao 阅读(80) 评论(0) 推荐(0) 编辑

requests基础综合实战

摘要：需求：爬取药监总局网址前5页的企业名称、许可证编号、法人分析： 1、我们需要的数据，在企业详情页面，都是可以获取到。先进入到任意一家企业的详情页中，查看企业的详情数据是否为动态加载数据？基于抓包工具进行局部搜索(network中路径有浏览器地址栏中的一致的数据包中进行局部搜索) 搜索的到：不是阅读全文

posted @ 2022-03-19 22:25 Tony_xiao 阅读(46) 评论(0) 推荐(0) 编辑

requests基础操作

摘要：1、基本介绍 requests就是爬虫中一个基于网络请求的模块。作用：模拟浏览器上网的。 2、环境安装：pip install requests 3、编码流程指定URL(相当于打开浏览器输入网址) 发起请求(相当于按下回车) 获取响应数据(从指定url中爬取到数据) 持久化存储 4、例如我们做一阅读全文

posted @ 2022-03-19 21:11 Tony_xiao 阅读(203) 评论(0) 推荐(0) 编辑

爬虫简介

摘要：1、什么是爬虫？ -就是编写程序，模拟浏览器上网，让其去互联网中抓取数据的过程模拟：浏览器本身就是一个纯天然的爬虫工具，爬虫相关的模块都是基于浏览器为基础开发出来的。注意：日后只要是你的爬虫程序没有爬取到你想要的数据，只有一个原因：就是你的爬虫程序模拟的力度不够！抓取：抓取网页数据分两种阅读全文

posted @ 2022-03-19 20:20 Tony_xiao 阅读(178) 评论(0) 推荐(0) 编辑

Tony_xiao

03 2022 档案

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论