随笔分类 - Python网络爬虫
摘要:基于Scrapy 2.5.1版本 一、初出茅庐 1 架构总览 Scrapy的基础架构: 关于架构,很有趣的一点是在Scrapy文档里的问题: Did Scrapy “steal” X from Django? Probably, but we don’t like that word. We thi
阅读全文
摘要:BeautifulSoup Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库。它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式。Beautiful Soup会帮你节省数小时甚至数天的工作时间。 中文文档 1 安装模块 $ apt-get ins
阅读全文
摘要:基本介绍 1 爬虫的基本流程 模拟浏览器发送请求->下载网页代码->只提取有用的数据->存放于数据库或文件中 对每一个步骤进行分析: #1、发起请求 使用http库向目标站点发起请求,即发送一个Request Request包含:请求头、请求体等 #2、获取响应内容 如果服务器能正常响应,则会得到一
阅读全文
摘要:request模块 使用requests可以模拟浏览器的请求,比起之前用到的urllib,requests模块的api更加便捷(本质就是封装了urllib3) 1 安装模块 pip install requests 它支持各种请求方式,常用的就是requests.get()和requests.pos
阅读全文
摘要:基本介绍 request模块 BeautifulSoup模块 selenium模块 scrapy框架 反爬措施以及应对反爬 其他部分 scrapy源码分析
阅读全文