2018年7月21日

摘要: Scrapy-Redis是Scrapy的分布式扩展模块,有了它,我们就可以方便地实现Scrapy分布式爬虫的搭建。GitHub:https://github.com/rmax/scrapy-redisPyPI:https://pypi.python.org/pypi/scrapy-redis官方文档 阅读全文
posted @ 2018-07-21 10:35 徐应钟 阅读(925) 评论(0) 推荐(0) 编辑
摘要: Scrapy-Splash是一个Scrapy中支持JavaScript渲染的工具。 Scrapy-Splash的安装分为两部分。一个是Splash服务的安装,具体是通过Docker,安装之后,会启动一个Splash服务,我们可以通过它的接口来实现JavaScript页面的加载。另外一个是Scrapy 阅读全文
posted @ 2018-07-21 10:31 徐应钟 阅读(527) 评论(0) 推荐(0) 编辑
摘要: Docker是一种容器技术,可以将应用和环境等进行打包,形成一个独立的、类似于iOS的App形式的“应用”。官方网站:https://www.docker.comGitHub:https://github.com/dockerDocker Hub:https://hub.docker.com官方文档 阅读全文
posted @ 2018-07-21 10:19 徐应钟 阅读(431) 评论(0) 推荐(0) 编辑
摘要: Scrapy是一个十分强大的爬虫框架,依赖的库比较多,至少需要依赖的库有Twisted 14.0、lxml 3.4和pyOpenSSL 0.14。在不同的平台环境下,它所依赖的库也各不相同,所以在安装之前,最好确保把一些基本库安装好。官方网站:https://scrapy.org官方文档:https 阅读全文
posted @ 2018-07-21 09:35 徐应钟 阅读(469) 评论(0) 推荐(0) 编辑
摘要: pyspider是国人binux编写的强大的网络爬虫框架,它带有强大的WebUI、脚本编辑器、任务监控器、项目管理器以及结果处理器,同时支持多种数据库后端、多种消息队列,另外还支持JavaScript渲染页面的爬取,使用起来非常方便。 pyspider是支持JavaScript渲染的,而这个过程是依 阅读全文
posted @ 2018-07-21 09:20 徐应钟 阅读(306) 评论(0) 推荐(0) 编辑
摘要: Pyquery同样是一个强大的网页解析工具,它提供了和jQuery类似的语法来解析HTML文档,支持CSS选择器,使用非常方便。GitHub:https://github.com/gawel/pyqueryPyPI:https://pypi.python.org/pypi/pyquery官方文档:h 阅读全文
posted @ 2018-07-21 09:03 徐应钟 阅读(607) 评论(0) 推荐(0) 编辑
摘要: Beautiful Soup是Python的一个HTML或XML的解析库,我们可以用它来方便地从网页中提取数据。它拥有强大的API和多样的解析方式。官方文档:https://www.crummy.com/software/BeautifulSoup/bs4/doc中文文档:https://www.c 阅读全文
posted @ 2018-07-21 09:00 徐应钟 阅读(255) 评论(0) 推荐(0) 编辑
摘要: 一、lxml的安装lxml是Python的一个解析库,支持HTML和XML的解析,支持XPath解析方式,而且解析效率非常高。本节中,我们了解一下lxml的安装方式,这主要从Windows、Linux和Mac三大平台来介绍。官方网站:http://lxml.deGitHub:https://gith 阅读全文
posted @ 2018-07-21 08:55 徐应钟 阅读(1775) 评论(0) 推荐(0) 编辑
摘要: PhantomJS是一个无界面的、可脚本编程的WebKit浏览器引擎,它原生支持多种Web标准:DOM操作、CSS选择器、JSON、Canvas以及SVG。Selenium支持PhantomJS,这样在运行的时候就不会再弹出一个浏览器了。而且PhantomJS的运行效率也很高,还支持各种参数配置,使 阅读全文
posted @ 2018-07-21 08:41 徐应钟 阅读(4893) 评论(0) 推荐(0) 编辑
摘要: GeckoDriver用于驱动Firefox,在这之前请确保已经正确安装好了Firefox浏览器并可以正常运行。 一、GeckoDriver的安装 GitHub:https://github.com/mozilla/geckodriver 下载地址:https://github.com/mozill 阅读全文
posted @ 2018-07-21 08:36 徐应钟 阅读(35224) 评论(0) 推荐(0) 编辑
摘要: 用于驱动Chrome浏览器,适用于有界面的操作系统。 一、安装ChromeDriver 要先安装Chrome浏览器,然后安装ChromeDriver。 官方网站:https://sites.google.com/a/chromium.org/chromedriver,上面有版本对应关系,如果打不开, 阅读全文
posted @ 2018-07-21 08:30 徐应钟 阅读(4361) 评论(0) 推荐(0) 编辑
摘要: 一、Selenium的安装,Selenium是一个自动化测试工具,利用它我们可以驱动浏览器执行特定的动作,如点击、下拉等操作。对于一些JavaScript渲染的页面来说,这种抓取方式非常有效。1、pip3 install selenium2、验证 import selenium 不报错即可 阅读全文
posted @ 2018-07-21 08:26 徐应钟 阅读(302) 评论(0) 推荐(0) 编辑
摘要: 一、Requests的安装1、pip3 install requests2、验证 import requests 不报错即可 阅读全文
posted @ 2018-07-21 08:25 徐应钟 阅读(260) 评论(0) 推荐(0) 编辑
摘要: 一.编译python3: 1、安装或依赖包:yum install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel gcc make 2、wget https://www. 阅读全文
posted @ 2018-07-21 08:10 徐应钟 阅读(114) 评论(0) 推荐(0) 编辑

导航