摘要: Scrapy-Redis分布式策略 原理图: 假设有四台电脑:Windows 10、Mac OS X、Ubuntu 16.04、CentOS 7.2,任意一台电脑都可以作为 Master端 或 Slaver端,比如: Master端(核心服务器) :使用 Windows 10,搭建一个Redis数据 阅读全文
posted @ 2018-07-19 19:47 不止于python 阅读(645) 评论(0) 推荐(0) 编辑
摘要: Scrapy--CrawlSpider Scrapy框架中分两类爬虫,Spider类和CrawlSpider类。 此案例采用的是CrawlSpider类实现爬虫。 它是Spider的派生类,Spider类的设计原则是只爬取start_url列表中的网页,而CrawlSpider类定义了一些规则(ru 阅读全文
posted @ 2018-07-19 19:39 不止于python 阅读(498) 评论(0) 推荐(0) 编辑
摘要: Selenium Selenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,类型像我们玩游戏用的按键精灵,可以按指定的命令自动操作,不同是Selenium 可以直接运行在浏览器上,它支持所有主流的浏览器(包括PhantomJS这些无界面的浏览器)。 Selenium 可以根据我们 阅读全文
posted @ 2018-07-19 19:21 不止于python 阅读(410) 评论(0) 推荐(0) 编辑
摘要: XPath (XML Path Language) 是一门在 XML 文档中查找信息的语言,可用来在 XML 文档中对元素和属性进行遍历。 W3School官方文档 开发工具 开源的XPath表达式编辑工具:XMLQuire(XML格式文件可用) Chrome插件 XPath Helper Fire 阅读全文
posted @ 2018-07-19 18:59 不止于python 阅读(232) 评论(0) 推荐(0) 编辑
摘要: BeautifulSoup4 官方文档 是一个Python库,用于从HTML和XML文件中提取数据。它与您最喜欢的解析器一起使用,提供导航,搜索和修改解析树的惯用方法。它通常可以节省程序员数小时或数天的工作量。 1.安装BeautifulSoup4 2.详细操作 3.注意:运行报错 解决:安装 lx 阅读全文
posted @ 2018-07-19 17:48 不止于python 阅读(3160) 评论(0) 推荐(0) 编辑