随笔档案「2020年8月6日」：爬虫——scrapy框架 ... - pythoner_wl

2020年8月6日

摘要：今日内容 scrapy 架构 # 通用的网络爬虫框架,爬虫界的django 5大组件 -引擎(EGINE)：大总管，负责控制数据的流向 -调度器(SCHEDULER)：由它来决定下一个要抓取的网址是什么，去重 -下载器(DOWLOADER)：用于下载网页内容, 并将网页内容返回给EGINE，下载器是阅读全文

posted @ 2020-08-06 18:24 pythoner_wl 阅读(147) 评论(0) 推荐(0)

爬虫小例子

摘要：不需要处理cookies——爬拉勾网职位信息 import requests # 原始的 url 从这里先获取 cookies urls ='https://www.lagou.com/jobs/list_python?labelWords=&fromSearch=true&suginput=' # 阅读全文

posted @ 2020-08-06 18:11 pythoner_wl 阅读(219) 评论(0) 推荐(0)

爬虫原理

摘要：爬虫简介爬虫：网络蜘蛛爬虫本质： -> 模拟浏览器发送请求（requests，selenium） -> 下载网页代码 -> 提取有用的数据（bs4，xpath，re） -> 存放于数据库或文件中（文件，excel，mysql，redis，mongodb）流程发送请求：请求地址（浏览器阅读全文

posted @ 2020-08-06 14:57 pythoner_wl 阅读(106) 评论(0) 推荐(0)

爬虫——css选择器和 xpath选择器

摘要： css选择器 ret=soup.select('#my_p') ret=soup.select('body p') # 子子孙孙 ret=soup.select('body>p') # 直接子节点（儿子） ret=soup.select('body>p')[0].text # 直接子节点（儿子） x 阅读全文

posted @ 2020-08-06 14:44 pythoner_wl 阅读(385) 评论(0) 推荐(0)

爬虫——selenium模块

摘要： selenium使用为了解决requests无法直接执行JavaScript代码的问题安装 pip3 install selenium 浏览器驱动浏览器驱动:http://npm.taobao.org/mirrors/chromedriver/ 驱动要跟浏览器版本对应 84.0.4147.10 阅读全文

posted @ 2020-08-06 10:00 pythoner_wl 阅读(120) 评论(0) 推荐(0)

pythoner_wl

公告