爬虫 - 随笔分类 - 輪滑少年

爬虫之xpath

摘要：一、XPath简介 1 简介 xpath是一门在XML文档中查找信息的语言 xpath可用来在XML文档中对元素和属性进行遍历 2.什么是 XPath XPath 使用路径表达式在XML文档中进行导航 XPath 包含一个标准函数库 XPath 是XSLT中的主要元素 XPath是一个W3C标准 3 阅读全文

posted @ 2021-01-25 13:14 輪滑少年阅读(303) 评论(0) 推荐(0)

爬虫之selenium

摘要：一、selenium的介绍 1.是一个自动化测试工具，模拟人的行为，做爬虫为了解决使用 requests模块无法执行ajax获取数据2.使用selenium+半人工登录，获取cookie 》给requests模块使用二、selenium的使用 1 安装模块 pip3 install seleniu 阅读全文

posted @ 2021-01-21 16:29 輪滑少年阅读(241) 评论(0) 推荐(0)

爬取梨视频

摘要：import requests import re res = requests.get('https://www.pearvideo.com/popular_9') # print(res.text) #拿到的是一个页面的所有视频html页面 re_video = '<a href="(.*?)" 阅读全文

posted @ 2021-01-19 17:10 輪滑少年阅读(129) 评论(0) 推荐(0)

爬虫基础之一

摘要：一、爬虫的基本原理 1.百度是个大爬虫.2.模拟浏览器发送http请求--(请求库)(频率，cookie,浏览器头。js反扒，app逆向)(抓包工具) >从服务器取回数据 >解析数据--(解析库)(反扒) >入库(存储库，)3.爬虫协议(详情见网站：https://www.cnblogs.com/s 阅读全文

posted @ 2021-01-19 17:07 輪滑少年阅读(77) 评论(0) 推荐(0)

.whel文件的打开方式

摘要：wheel文件本质上就是zip或者rar,只不过他更加方便python的安装以及使用。在之前的图片中我们只要使用pip install wheel 就可以安装wheel。在安装了wheel之后我们可以使使用pip install XXX.whl来安装.whl的文件了。（这里的XXX.whl是whe 阅读全文

posted @ 2020-12-28 20:42 輪滑少年阅读(434) 评论(0) 推荐(0)

爬虫之bs4的使用，之爬取汽车之家新闻，之代理池的搭建

摘要：一、bs4的使用 from bs4 import BeautifulSouppip3 install lxml html_doc=""" <!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; 阅读全文

posted @ 2020-12-28 17:17 輪滑少年阅读(476) 评论(0) 推荐(0)

爬虫基础之爬取梨视频模拟登陆爬取妹子图

摘要：一：爬虫介绍 1. 什么是爬虫爬虫就是一个网络蜘蛛，伪装成用去，去网站拿到自己想要的数据。注意：是可见即可爬，如果爬取的是人家加密的数据，就是黑客(犯法)2. 爬虫的本质模拟浏览器发送请求（requests，selenium）->下载网页代码->只提取有用的数据（bs4，xpath，re）->存阅读全文

posted @ 2020-12-28 10:28 輪滑少年阅读(984) 评论(0) 推荐(0)

随笔分类 - 爬虫