随笔分类 - python 爬虫
摘要:Scrapy框架 Scrapy使用了Twisted作为框架,Twisted有些特殊的地方是它是事件驱动的,并且比较适合异步的代码。对于会阻塞线程的操作包含访问文件、数据库或者Web、产生新的进程并需要处理新进程的输出(如运行shell命令)、执行系统层次操作的代码(如等待系统队列),Twisted提
阅读全文
摘要:selenium库 selenium 是一套完整的web应用程序测试系统,包含了测试的录制(selenium IDE),编写及运行(Selenium Remote Control)和测试的并行处理(Selenium Grid)。Selenium的核心Selenium Core基于JsUnit,完全由
阅读全文
摘要:PyQuery库 PyQuery库也是一个非常强大又灵活的网页解析库,PyQuery 是 Python 仿照 jQuery 的严格实现。语法与 jQuery 几乎完全相同,所以不用再去费心去记一些奇怪的方法了。 官网地址:http://pyquery.readthedocs.io/en/latest
阅读全文
摘要:BeautifulSoup库 beautifulsoup就是一个非常强大的工具,爬虫利器。一个灵活又方便的网页解析库,处理高效,支持多种解析器。利用它就不用编写正则表达式也能方便的实现网页信息的抓取 点击BeautifulSoup,快速上手Python BeautifulSoup库的操作使用,这里就
阅读全文
摘要:Requests Requests是用python语言基于urllib编写的,采用的是Apache2 Licensed开源协议的HTTP库,requests是python实现的最简单易用的HTTP库,爬虫使用requests库相比较urllib库更加功能强大。 点击Requests,快速上手Pyth
阅读全文
摘要:Urllib库 Urllib是python内置的HTTP请求库,包括以下模块:urllib.request (请求模块)、urllib.error( 异常处理模块)、urllib.parse (url解析模块)、urllib.robotparser (robots.txt解析模块) 一、urllib
阅读全文
摘要:Python爬虫 一、爬虫的本质是什么? 模拟浏览器打开网页,获取网页中我们想要的那部分数据 浏览器打开网页的过程:当你在浏览器中输入地址后,经过DNS服务器找到服务器主机,向服务器发送一个请求,服务器经过解析后发送给用户浏览器结果,包括html,js,css等文件内容,浏览器解析出来最后呈现给用户
阅读全文