01爬虫简介

01爬虫简介

1.jupyter安装与打开

简介:jupyter是一个交互式笔记本,是一个基于web页面的开发工具,集成了数据分析和机器学习开发环境。

用途: 学习、笔记共享,探索,开发数据分析和机器学习。

1.1.安装

pip3 install jupyter

1.2.运行

在指定目录运行命令

python3 -m jupyter notebook

2.爬 虫 相 关 概 念

  • 爬 虫 : 就 是 通 过 编 写 程 序 , 让 其 模 拟 浏 览 器 上 网 , 然 后 去 互 联 网 上 抓 取 数 据 的 过 程

    模 拟 : 浏 览 器 就 是 一 款 天 然 的 爬 虫 工 具 !

    抓 取 : 抓 取数 据

  • 爬 虫 的 分 类 :

    通 用 爬 虫 : ( 数 据 的 爬 取 )抓 取 一 整 张 页 面 源 码 数 据

    聚 焦 爬 虫 : ( 数 据 解 析 )抓 取 局 部 的 指 定 的 数 据 。 是 建 立 在 通 用 爬 虫 基 础 之 上 的 !

    增 量 式 爬 虫 : ( 数 据 的 更 新 )监 测 网 站 数 据 更 新 的 情 况 ! 抓 取 网 站 最 新 更 新 出 来 的 数 据 !

  • 反爬 机 制

    一 些 网 站 后 台 会 设 定 相 关 的 机 制 阻 止 爬 虫 程 序 进 行 数 据 的 爬 取 , 这 些 机 制 就 是 网 站 设 定 的 反 爬 策 略

  • 反 反 爬 策 略

    爬 虫 需 要 制 定 相 关 的 策 略 破 解 反 爬 机 制 , 从 而 可 以 爬 取 到 网 站 的 数 据

  • 反 爬 协 议

    robots 协 议 : 存 在 于 网 站 服 务 器 的 一 个 文 本 协 议 。 指 明 了 该 网 站 中 哪 些 数 据 可 以 爬 取 哪 些 不
    可 以 爬 取 。
    特 点 : 防 君 子 不 防 小 人 。

posted @   冷夜O  阅读(18)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· 阿里巴巴 QwQ-32B真的超越了 DeepSeek R-1吗?
· 【译】Visual Studio 中新的强大生产力特性
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义
· 【设计模式】告别冗长if-else语句:使用策略模式优化代码结构
点击右上角即可分享
微信分享提示