05 2018 档案

摘要:Infi-chu: http://www.cnblogs.com/Infi-chu/ 1.框架架构图: 2.各文件功能scrapy.cfg 项目的配置文件items.py 定义了Item数据结构,所有Item的定义都可以放在这里pipelines.py 定义了Item Pipeline的实现sett 阅读全文
posted @ 2018-05-06 21:48 Infi_chu 阅读(4372) 评论(0) 推荐(0)
摘要:Infi-chu: http://www.cnblogs.com/Infi-chu/ 一、pyspider介绍1.基本功能 提供WebUI可视化功能,方便编写和调试爬虫 提供爬取进度监控、爬取结果查看、爬虫项目管理 支持多种数据库,MySQL、MongoDB、Redis、SQLite、Postgre 阅读全文
posted @ 2018-05-06 13:46 Infi_chu 阅读(910) 评论(0) 推荐(0)
摘要:Infi-chu: http://www.cnblogs.com/Infi-chu/ 一、设置代理 1.urllib 2.requests比urllib简单 3.Selenium设置浏览器代理 设置认证代理 二、代理池维护单一代理并不能完成我们的代理任务,所以需要更多数量的代理为我们服务。我们将对代 阅读全文
posted @ 2018-05-05 17:17 Infi_chu 阅读(1682) 评论(0) 推荐(0)
摘要:Infi-chu: http://www.cnblogs.com/Infi-chu/ 一、图形验证码识别1.使用tesserocr # 在本地存储一张验证码的图片做测试image = Image.open('test.jpg')result = tesserocr.image_to_text(ima 阅读全文
posted @ 2018-05-04 17:47 Infi_chu 阅读(5492) 评论(0) 推荐(0)
摘要:Infi-chu: http://www.cnblogs.com/Infi-chu/ Python提供了很多模拟浏览器运行的库,比如:Selenium、Splash等 1.常用的引用 2.常用声明浏览器对象 3.访问页面使用get()方法 4.查找节点单个节点 多个节点使用find_elements 阅读全文
posted @ 2018-05-04 10:58 Infi_chu 阅读(1413) 评论(0) 推荐(1)
摘要:Infi-chu: http://www.cnblogs.com/Infi-chu/ pyquery专门针对CSS和jQuery的操作处理 1.初始化字符串初始化 URL初始化 文件初始化 2.基本CSS选择器 3.查找节点子节点 父节点使用parent()方法获取该节点的父节点使用parents( 阅读全文
posted @ 2018-05-03 17:07 Infi_chu 阅读(815) 评论(0) 推荐(0)
摘要:Infi-chu: http://www.cnblogs.com/Infi-chu/ 一、简单的循环串行一个一个循环,耗时是最长的,是所有的时间综合 二、通过线程池整体耗时是所有连接里耗时最久的那个,相对于循环来说快了不少 三、线程池+回调函数定义了一个回调函数 四、通过进程池进程池的方式访问,同样 阅读全文
posted @ 2018-05-03 15:12 Infi_chu 阅读(680) 评论(0) 推荐(0)
摘要:Infi-chu: http://www.cnblogs.com/Infi-chu/ 一、重要概念 二、爬虫反爬虫进化论 阅读全文
posted @ 2018-05-02 17:44 Infi_chu 阅读(620) 评论(0) 推荐(0)
摘要:Infi-chu: http://www.cnblogs.com/Infi-chu/ 一、非关系型数据库NoSQL全程是Not Only SQL,非关系型数据库。NoSQL是基于键值对的,不需要经过SQL层的解析,数据之间没有耦合性,性能非常高。具体介绍请看(也包括Redis) http://www 阅读全文
posted @ 2018-05-02 14:32 Infi_chu 阅读(685) 评论(0) 推荐(0)
摘要:Infi-chu: http://www.cnblogs.com/Infi-chu/ 关系型数据库关系型数据库是基于关系模型的数据库,而关系模型是通过二维表来保存的,所以关系型数据库的存储方式就是行列组成的表。每一列是一个字段,每一行是一条记录。表可以看成是摸个实体的集合,而实体之间存在关系,比如主 阅读全文
posted @ 2018-05-02 12:50 Infi_chu 阅读(939) 评论(0) 推荐(0)
摘要:Infi-chu: http://www.cnblogs.com/Infi-chu/ TXT文本存储 TXT文本存储,方便,简单,几乎适用于任何平台。但是不利于检索。 1.举例: 使用requests获得网页源代码,然后使用pyquery解析库解析 2.打开方式: r rb r+ rb+ w wb 阅读全文
posted @ 2018-05-02 10:56 Infi_chu 阅读(2242) 评论(1) 推荐(1)
摘要:Infi-chu: http://www.cnblogs.com/Infi-chu/ Beautiful Soup 借助网页的结构和属性等特性来解析网页,这样就可以省去复杂的正则表达式的编写。 Beautiful Soup是Python的一个HTML或XML的解析库。 1.解析器 解析器 使用方法 阅读全文
posted @ 2018-05-02 01:22 Infi_chu 阅读(849) 评论(0) 推荐(0)