python scrapy爬虫笔记01

【python scrapy 爬虫】
1 环境配置

　　　　win10； python3.7；
2 爬虫project

【第三方包scrapy，re】

    【 scrapy 相关】
    【 pip安装】
          pip install Scrapy；

    【scrapy 一些相关依赖】
        pywin32
            python 的windows扩展包
        Twisted
            是用Python实现的基于事件驱动的网络引擎框架
        lxml
            lxml是python的一个解析库，支持HTML和XML的解析，支持XPath解析方式
        w3lib
            是scrapy的依赖包；实现了一下与web相关的功能
        pyopenssl

【python链接数据库】

　　第三方：MySQLdb

【新建项目(scrapy startproject) 】
    构建scrapy的文件结构：
        * 命令：scrapy startproject mySpider； - cmd（终端）中 cd 到此文件夹（空）下
        * 文件结构：
                mySpider/
                    scrapy.cfg - 项目的配置文件
                    mySpider/ - 项目的Python模块，将会从这里引用代码
                        __init__.py
                        items.py - 项目的目标文件：items.py里存放的是我们要爬取数据的字段信息
                        middlewares.py - 自己定义的中间件。
                        pipelines.py - 项目的管道文件：pipeline主要是对spiders中爬虫的返回的数据的处理，这里我们可以让写入到数据库，也可以让写入到文件等等
                        settings.py - 项目的设置文件
                       *spiders/ - 存储爬虫代码目录 - 主要编写代码的文件夹
                            __init__.py
                            ...

posted @ 2019-09-16 10:19 丨Kouch 阅读(137) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

HELLO WORLD

[ 0_o o_O ]

python scrapy爬虫笔记01

公告