摘要: 1. 大数据简介 1.1 大数据的由来 随着计算机技术的发展,互联网的普及,信息的积累已经到了一个非常庞大的地步,信息的增长也在不断的加快,随着互联网、物联网建设的加快,信息更是爆炸式增长,收集、检索、统计这些信息越发困难,必须使用新的技术来解决这些问题 1.2 什么是大数据 【1】定义 大数据指无 阅读全文
posted @ 2022-02-26 16:13 我不知道取什么名字好 阅读(75) 评论(0) 推荐(0) 编辑
摘要: SPIDER-DAY08 1. 腾讯招聘爬虫 scrapy项目代码 见day08笔记:Tencent 文件夹【1】一级页面 提取数据: 每个职位的PostId【2】二级页面 提取数据:1个职位的 名称、地点、类别、发布时间、职责、要求 2. 腾讯招聘数据持久化 建库建表SQL create data 阅读全文
posted @ 2022-02-26 15:57 我不知道取什么名字好 阅读(289) 评论(0) 推荐(0) 编辑
摘要: SPIDER-DAY07 1. scrapy框架 1.1 scrapy概述 定义 异步处理框架,可配置和可扩展程度非常高,Python中使用最广泛的爬虫框架 安装 【1】Ubuntu安装 sudo pip3 install Scrapy 【2】Windows安装 python -m pip inst 阅读全文
posted @ 2022-02-26 15:55 我不知道取什么名字好 阅读(34) 评论(0) 推荐(0) 编辑
摘要: SPIDER-DAY06 1. selenium详解 1.1 代码演示 """使用selenium打开浏览器,进入百度的搜索页面"""# 导入selenium的webdriver接口from selenium import webdriver​# 1.打开浏览器 - 创建浏览器对象driver = 阅读全文
posted @ 2022-02-26 15:53 我不知道取什么名字好 阅读(293) 评论(0) 推荐(0) 编辑
摘要: 1. 动态加载数据抓取 1.1 AJAX动态加载 数据特点 【1】右键 -> 查看网页源码中没有具体数据【2】滚动鼠标滑轮或其他动作时加载,或者页面局部刷新 分析流程 【1】F12打开控制台,页面动作抓取网络数据包【2】抓取json文件URL地址 2.1) 控制台中 XHR :异步加载的数据包 2. 阅读全文
posted @ 2022-02-26 15:51 我不知道取什么名字好 阅读(243) 评论(0) 推荐(0) 编辑
摘要: 1. 代理参数 1.1 代理IP概述 【1】定义 代替你原来的IP地址去对接网络的IP地址​【2】作用 隐藏自身真实IP,避免被封 【3】获取代理IP网站 快代理、全网代理、代理精灵、... ...​【4】参数类型 proxies proxies = { '协议':'协议://IP:端口号' } p 阅读全文
posted @ 2022-02-26 15:49 我不知道取什么名字好 阅读(277) 评论(0) 推荐(0) 编辑
摘要: SPIDER-DAY03 1. Chrome浏览器插件 【1】在线安装 1.1> 下载插件 - google访问助手 1.2> 安装插件 - google访问助手: Chrome浏览器-设置-更多工具-扩展程序-开发者模式-拖拽(解压后的插件) 1.3> 在线安装其他插件 - 打开google访问助 阅读全文
posted @ 2022-02-26 15:47 我不知道取什么名字好 阅读(201) 评论(0) 推荐(0) 编辑
摘要: 电影天堂案例 import requestsimport reimport timeimport random​# http://httpbin.org/getclass DyttSpider: def __init__(self): self.url = 'https://www.dytt8.ne 阅读全文
posted @ 2022-02-26 15:45 我不知道取什么名字好 阅读(202) 评论(0) 推荐(0) 编辑
摘要: ==2. 爬虫请求模块== 2.1 requests模块 安装 【1】Linux sudo pip3 install requests​【2】Windows python -m pip install requests 2.2 常用方法 requests.get() 【1】作用 向目标网站发起请求, 阅读全文
posted @ 2022-02-26 01:18 我不知道取什么名字好 阅读(70) 评论(0) 推荐(0) 编辑