随笔分类 -  爬虫

摘要:SPIDER-DAY08 1. 腾讯招聘爬虫 scrapy项目代码 见day08笔记:Tencent 文件夹【1】一级页面 提取数据: 每个职位的PostId【2】二级页面 提取数据:1个职位的 名称、地点、类别、发布时间、职责、要求 2. 腾讯招聘数据持久化 建库建表SQL create data 阅读全文
posted @ 2022-02-26 15:57 我不知道取什么名字好 阅读(312) 评论(0) 推荐(0) 编辑
摘要:SPIDER-DAY07 1. scrapy框架 1.1 scrapy概述 定义 异步处理框架,可配置和可扩展程度非常高,Python中使用最广泛的爬虫框架 安装 【1】Ubuntu安装 sudo pip3 install Scrapy 【2】Windows安装 python -m pip inst 阅读全文
posted @ 2022-02-26 15:55 我不知道取什么名字好 阅读(37) 评论(0) 推荐(0) 编辑
摘要:SPIDER-DAY06 1. selenium详解 1.1 代码演示 """使用selenium打开浏览器,进入百度的搜索页面"""# 导入selenium的webdriver接口from selenium import webdriver​# 1.打开浏览器 - 创建浏览器对象driver = 阅读全文
posted @ 2022-02-26 15:53 我不知道取什么名字好 阅读(294) 评论(0) 推荐(0) 编辑
摘要:1. 动态加载数据抓取 1.1 AJAX动态加载 数据特点 【1】右键 -> 查看网页源码中没有具体数据【2】滚动鼠标滑轮或其他动作时加载,或者页面局部刷新 分析流程 【1】F12打开控制台,页面动作抓取网络数据包【2】抓取json文件URL地址 2.1) 控制台中 XHR :异步加载的数据包 2. 阅读全文
posted @ 2022-02-26 15:51 我不知道取什么名字好 阅读(262) 评论(0) 推荐(0) 编辑
摘要:1. 代理参数 1.1 代理IP概述 【1】定义 代替你原来的IP地址去对接网络的IP地址​【2】作用 隐藏自身真实IP,避免被封 【3】获取代理IP网站 快代理、全网代理、代理精灵、... ...​【4】参数类型 proxies proxies = { '协议':'协议://IP:端口号' } p 阅读全文
posted @ 2022-02-26 15:49 我不知道取什么名字好 阅读(293) 评论(0) 推荐(0) 编辑
摘要:SPIDER-DAY03 1. Chrome浏览器插件 【1】在线安装 1.1> 下载插件 - google访问助手 1.2> 安装插件 - google访问助手: Chrome浏览器-设置-更多工具-扩展程序-开发者模式-拖拽(解压后的插件) 1.3> 在线安装其他插件 - 打开google访问助 阅读全文
posted @ 2022-02-26 15:47 我不知道取什么名字好 阅读(206) 评论(0) 推荐(0) 编辑
摘要:电影天堂案例 import requestsimport reimport timeimport random​# http://httpbin.org/getclass DyttSpider: def __init__(self): self.url = 'https://www.dytt8.ne 阅读全文
posted @ 2022-02-26 15:45 我不知道取什么名字好 阅读(223) 评论(0) 推荐(0) 编辑
摘要:==2. 爬虫请求模块== 2.1 requests模块 安装 【1】Linux sudo pip3 install requests​【2】Windows python -m pip install requests 2.2 常用方法 requests.get() 【1】作用 向目标网站发起请求, 阅读全文
posted @ 2022-02-26 01:18 我不知道取什么名字好 阅读(80) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示