摘要:
xpath的使用 简介:XPath 是一门在 XML 文档中查找信息的语言 # 一般解析库都会有子的的搜索标签的方法,一般都会支持css和xpath # XPath 是一门在 XML 文档中查找信息的语言 # 需要你记住的: -div 找div标签 -/ 找当前路径下的标签 - /div/a -// 阅读全文
摘要:
爬红楼梦小说 #http://www.shicimingju.com/book/hongloumeng.html import requests from bs4 import BeautifulSoup ret=requests.get('https://www.shicimingju.com/b 阅读全文
摘要:
selenium基本使用 # 由于requests不能执行js,有的页面内容,我们在浏览器中可以看到,但是请求下来没有 》selenium模块:模拟操作浏览器,完成人的行为 # selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码 阅读全文
摘要:
BeautifulSoup4 介绍 # Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库 # 使用requests发请求拿回来的html,就可以使用bs4解析出咱们想要的数据 # BeautifulSoup(要解析的字符串, "解析方式:html.parser 阅读全文
摘要:
代理池搭建 # 在爬一些网站的时候可能会被封ip,根据ip限制频率 》突破限制 》每次发送请求使用代理ip 》服务端封ip,只会限制代理ip # 做一个代理池 》有很多代理ip 》每次随机从里面取出一个ip使用 # 免费的:不稳定 # 收费的:花钱 # 基于网上别人开源的代理池的python代码,自 阅读全文
摘要:
requests 介绍 #介绍:使用requests可以模拟浏览器的请求,比起之前用到的urllib,requests模块的api更加便捷(本质就是封装了urllib3) #注意:requests库发送请求将网页内容下载下来以后,并不会执行js代码,这需要我们自己分析目标站点然后发起新的reques 阅读全文