随笔 - 192,  文章 - 1,  评论 - 6,  阅读 - 51476

随笔分类 -  爬虫

爬虫之xpath
摘要:一、XPath简介 1 简介 xpath是一门在XML文档中查找信息的语言 xpath可用来在XML文档中对元素和属性进行遍历 2.什么是 XPath XPath 使用路径表达式在XML文档中进行导航 XPath 包含一个标准函数库 XPath 是XSLT中的主要元素 XPath是一个W3C标准 3 阅读全文
posted @ 2021-01-25 13:14 輪滑少年 阅读(285) 评论(0) 推荐(0) 编辑
爬虫之selenium
摘要:一、selenium的介绍 1.是一个自动化测试工具,模拟人的行为,做爬虫为了解决使用 requests模块无法执行ajax获取数据2.使用selenium+半人工登录,获取cookie 》给requests模块使用 二、selenium的使用 1 安装模块 pip3 install seleniu 阅读全文
posted @ 2021-01-21 16:29 輪滑少年 阅读(233) 评论(0) 推荐(0) 编辑
爬取梨视频
摘要:import requests import re res = requests.get('https://www.pearvideo.com/popular_9') # print(res.text) #拿到的是一个页面的所有视频html页面 re_video = '<a href="(.*?)" 阅读全文
posted @ 2021-01-19 17:10 輪滑少年 阅读(100) 评论(0) 推荐(0) 编辑
爬虫基础之一
摘要:一、爬虫的基本原理 1.百度是个大爬虫.2.模拟浏览器发送http请求--(请求库)(频率,cookie,浏览器头。js反扒,app逆向)(抓包工具) >从服务器取回数据 >解析数据--(解析库)(反扒) >入库(存储库,)3.爬虫协议(详情见网站:https://www.cnblogs.com/s 阅读全文
posted @ 2021-01-19 17:07 輪滑少年 阅读(67) 评论(0) 推荐(0) 编辑
.whel文件的打开方式
摘要:wheel文件本质上就是zip或者rar,只不过他更加方便python的安装以及使用。在之前的图片中我们只要使用pip install wheel 就可以安装wheel。 在安装了wheel之后我们可以使使用pip install XXX.whl来安装.whl的文件了。(这里的XXX.whl是whe 阅读全文
posted @ 2020-12-28 20:42 輪滑少年 阅读(345) 评论(0) 推荐(0) 编辑
爬虫之bs4的使用,之爬取汽车之家新闻,之代理池的搭建
摘要:一、bs4的使用 from bs4 import BeautifulSouppip3 install lxml html_doc=""" <!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; 阅读全文
posted @ 2020-12-28 17:17 輪滑少年 阅读(431) 评论(0) 推荐(0) 编辑
爬虫基础 之 爬取梨视频 模拟登陆 爬取妹子图
摘要:一:爬虫介绍 1. 什么是爬虫 爬虫就是一个网络蜘蛛,伪装成用去,去网站拿到自己想要的数据。注意:是可见即可爬,如果爬取的是人家加密的数据,就是黑客(犯法)2. 爬虫的本质 模拟浏览器发送请求(requests,selenium)->下载网页代码->只提取有用的数据(bs4,xpath,re)->存 阅读全文
posted @ 2020-12-28 10:28 輪滑少年 阅读(855) 评论(0) 推荐(0) 编辑

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

点击右上角即可分享
微信分享提示