随笔分类 - python 爬虫
1
摘要:##bs4数据解析原理 实例化一个BeautifulSoup对象,并且将页面源码数据加载到该对象中 通过调用BeautifulSoup对象中相关的属性方法进行标签定位和数据提取 ##如何实例化BeautifulSoup对象: from bs4 import BeautifulSoup 对象实例化:将
阅读全文
摘要:聚焦爬虫:爬取页面中指定的页面内容 数据解析分类: 正则 bs4 xpath 数据解析原理概述: 所解析的内容都会在标签之间或者标签对应的属性中进行存储 定位指定标签 将指定标签中的数据提取
阅读全文
摘要:##代码 import requests url='https://fanyi.baidu.com/sug' data={ 'kw':'people' } headers={ 'User-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleW
阅读全文
摘要:##简介 请求载体的身份表示 ##UA伪装 门户网站的服务器会检测对于请求的载体身份标识,如果检测到请求的载体身份标识为某一款游览器,说明该请求是一个正常的请求。但是如果检测到的载体身份标识不是基于某一款游览器的,则识别为爬虫。 ##操作 将游览器的User-agent复制到爬虫程序中 ##网页采集
阅读全文
摘要:常用模块:requests与urllib requests更简洁 ##requests模块 python原生基于网络请求模块,效率高,简单便捷 ##如何使用 指定url 发起请求 获取响应数据 持久化存储 ##爬取网页代码 import requests url='https://www.sogou
阅读全文
摘要:##HTTP协议 超文本传输协议(Hyper Text Transfer Protocol,HTTP)是一个简单的请求-响应协议,它通常运行在TCP之上。它指定了客户端可能发送给服务器什么样的消息以及得到什么样的响应。请求和响应消息的头以ASCII形式给出;而消息内容则具有一个类似MIME的格式。这
阅读全文
摘要:##什么是爬虫 通过编写程序,模拟游览器上网,然后去互联网上抓取数据的过程 ##爬虫在使用场景的分类 通用爬虫: 抓取的是一整张页面 聚焦爬虫: 是建立在通用爬虫的基础上,抓取的是页面中特定的内容 增量式爬虫: 检测网站中数据更新的情况,只会抓取网站中最新更新出来的数据。 ##反爬机制与反反爬策略
阅读全文