摘要: [toc] # 一 scrapy介绍安装--架构 ## 1.1 安装 ```python Scrapy 是一个爬虫框架(底层代码封装好了,只需要在固定位置写固定代码即可),应用领域比较广泛 >爬虫界的django # 安装 #Windows平台 1、pip3 install wheel #安装后,便 阅读全文
posted @ 2023-08-07 22:00 星空看海 阅读(23) 评论(0) 推荐(0) 编辑
摘要: [toc] # 一 selenium基本使用 ```python # requests 发送请求,不能加载ajax # selenium:直接操作浏览器,不是直接发送http请求,而是用代码控制模拟人操作浏览器的行为,js会自动加载 # requests和selenium谁的效率高?requests 阅读全文
posted @ 2023-08-07 21:49 星空看海 阅读(46) 评论(0) 推荐(0) 编辑
摘要: [toc] # 一 爬取新闻 ```python # 1 爬取网页 requests # 2 解析 xml包含html格式 xml格式,用了re匹配的 html,bs4,lxml... json: -python :内置的 -java : fastjson 》漏洞 -java: 谷歌 Gson -g 阅读全文
posted @ 2023-08-07 21:43 星空看海 阅读(9) 评论(0) 推荐(0) 编辑
摘要: [toc] # 一、爬虫介绍 ```python # 爬虫:又称网络蜘蛛,spider,一堆程序,从互联网中抓取数据 >数据清洗 >入库 # 爬虫需要掌握的知识 -抓取数据:发送网络请求(http),获得响应(http响应,响应头,响应体 >真正重要的数据在响应体中) -python模块:reque 阅读全文
posted @ 2023-08-07 21:31 星空看海 阅读(44) 评论(0) 推荐(0) 编辑