随笔分类 - 爬虫
爬虫之xpath
摘要:一、XPath简介 1 简介 xpath是一门在XML文档中查找信息的语言 xpath可用来在XML文档中对元素和属性进行遍历 2.什么是 XPath XPath 使用路径表达式在XML文档中进行导航 XPath 包含一个标准函数库 XPath 是XSLT中的主要元素 XPath是一个W3C标准 3
阅读全文
爬虫之selenium
摘要:一、selenium的介绍 1.是一个自动化测试工具,模拟人的行为,做爬虫为了解决使用 requests模块无法执行ajax获取数据2.使用selenium+半人工登录,获取cookie 》给requests模块使用 二、selenium的使用 1 安装模块 pip3 install seleniu
阅读全文
爬取梨视频
摘要:import requests import re res = requests.get('https://www.pearvideo.com/popular_9') # print(res.text) #拿到的是一个页面的所有视频html页面 re_video = '<a href="(.*?)"
阅读全文
爬虫基础之一
摘要:一、爬虫的基本原理 1.百度是个大爬虫.2.模拟浏览器发送http请求--(请求库)(频率,cookie,浏览器头。js反扒,app逆向)(抓包工具) >从服务器取回数据 >解析数据--(解析库)(反扒) >入库(存储库,)3.爬虫协议(详情见网站:https://www.cnblogs.com/s
阅读全文
.whel文件的打开方式
摘要:wheel文件本质上就是zip或者rar,只不过他更加方便python的安装以及使用。在之前的图片中我们只要使用pip install wheel 就可以安装wheel。 在安装了wheel之后我们可以使使用pip install XXX.whl来安装.whl的文件了。(这里的XXX.whl是whe
阅读全文
爬虫之bs4的使用,之爬取汽车之家新闻,之代理池的搭建
摘要:一、bs4的使用 from bs4 import BeautifulSouppip3 install lxml html_doc=""" <!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html;
阅读全文
爬虫基础 之 爬取梨视频 模拟登陆 爬取妹子图
摘要:一:爬虫介绍 1. 什么是爬虫 爬虫就是一个网络蜘蛛,伪装成用去,去网站拿到自己想要的数据。注意:是可见即可爬,如果爬取的是人家加密的数据,就是黑客(犯法)2. 爬虫的本质 模拟浏览器发送请求(requests,selenium)->下载网页代码->只提取有用的数据(bs4,xpath,re)->存
阅读全文