python爬虫

根据特定的需求,抓取指定的数据

代替浏览器上网

  网页的特点:

    1、网页都有自己唯一的URL

    2、网页内容都是html结构

    3、使用的都是http或https协议

  爬虫步骤:

    1、给一个URL

    2、写程序,模拟浏览器访问URL

    3、解析内容,提取数据

  环境:

    windows环境、linux环境

    python3.6   64位

  使用的工具:

    1、库

      urllib \ requests \ bs4

    2、解析网页内容的知识

      正则表达式、bs4、xpath、jsonpath

    3、涉及到动态html

      selenium+phantomjs、chromeheadless

    4、scrapy框架

    5、scrapy-redis组件

    6、涉及到爬虫-反爬虫-反反爬虫的一些内容

      UA、代理、验证码、动态页面等

http协议

     

posted @ 2018-12-25 23:19  jackpod  阅读(139)  评论(0编辑  收藏  举报