爬虫基本原理

一、爬虫介绍:

  -本质,

    -就是想网站发送http请求,拿回一些页面/json格式数据(request)

    -处理数据,解析出有用的东西(re,bs4)

    -存储(mysql,文件,cvs,redis,MongoDB,es)

    -分析

  -cookie池和代理池

    -爬视频

    -正向代理和反向代理

      (正向代理-代理自己,反向代理-代理服务器)

 

 

爬虫运用模块

  -requests模块

    -爬视频

  -beautiflsoup

    -requests+bs4爬新闻

  -selenium

    -购物网站

  -request-html

    -模拟登陆知乎(破解加密登陆)

  -破解验证码

  -mogodb

  -高性能相关

  -scrapy框架(爬虫界的django)

  -分布式爬虫  scrapy-redis

 

posted @ 2019-11-25 20:53  小王八+1  阅读(162)  评论(0编辑  收藏  举报