09 2018 档案
摘要:1.案例一 a.创建项目 进入项目路径 renren.py 在项目路径下创建start.py 2.案例2 a.手动输入验证码 创建项目 进去项目路径 settings.py douban.py 在douban_login目录下创建start.py 执行start.py即可 b.自动识别验证码 c.其
阅读全文
摘要:Scrapy终端是一个交互终端,我们可以在未启动spider的情况下尝试及调试代码,也可以用来测试XPath或CSS表达式,查看他们的工作方式,方便我们爬取的网页中提取的数据。 如果安装了 IPython ,Scrapy终端将使用 IPython (替代标准Python终端)。 IPython 终端
阅读全文
摘要:1.CrawlSpider介绍 Scrapy框架中分两类爬虫,Spider类和CrawlSpider类。 此案例采用的是CrawlSpider类实现爬虫。 它是Spider的派生类,Spider类的设计原则是只爬取start_url列表中的网页,而CrawlSpider类定义了一些规则(rule)来
阅读全文
摘要:一.Scrapy 框架简介 1.简介 框架图如下: 流程: 2.用法步骤 3.安装 二.快速入门 a.创建一个新的Scrapy项目。进入自定义的项目目录中,运行下列命令: b.创建一个案例 settings.py qsbk_spider.py 在qsbk目录下创建start.py 执行即可看到结果
阅读全文
摘要:一.慢查询日志进阶 <1>相关参数 <2>慢查询日志实践 mysqldumpslow [root@localhost mysql_data]# mysqldumpslow slow.logReading mysql slow query log from slow.log #############
阅读全文
摘要:1.Tesseract-OCR简介 一个Google支持的开源的OCR图文识别开源项目。支持多种语言(我使用的是3.02 版本,支持包括英文,简体中文,繁体中文),支持Windows,Linux,Mac OSX 多平台。 2.Tesseract安装 下载windows版本的tesseract安装包,
阅读全文