随笔分类 -  python 爬虫

摘要:Scrapy框架 Scrapy使用了Twisted作为框架,Twisted有些特殊的地方是它是事件驱动的,并且比较适合异步的代码。对于会阻塞线程的操作包含访问文件、数据库或者Web、产生新的进程并需要处理新进程的输出(如运行shell命令)、执行系统层次操作的代码(如等待系统队列),Twisted提 阅读全文
posted @ 2017-07-26 08:13 Wilson_Blogs 阅读(154) 评论(0) 推荐(0) 编辑
摘要:selenium库 selenium 是一套完整的web应用程序测试系统,包含了测试的录制(selenium IDE),编写及运行(Selenium Remote Control)和测试的并行处理(Selenium Grid)。Selenium的核心Selenium Core基于JsUnit,完全由 阅读全文
posted @ 2017-07-24 16:07 Wilson_Blogs 阅读(167) 评论(0) 推荐(0) 编辑
摘要:PyQuery库 PyQuery库也是一个非常强大又灵活的网页解析库,PyQuery 是 Python 仿照 jQuery 的严格实现。语法与 jQuery 几乎完全相同,所以不用再去费心去记一些奇怪的方法了。 官网地址:http://pyquery.readthedocs.io/en/latest 阅读全文
posted @ 2017-07-23 20:02 Wilson_Blogs 阅读(192) 评论(0) 推荐(0) 编辑
摘要:BeautifulSoup库 beautifulsoup就是一个非常强大的工具,爬虫利器。一个灵活又方便的网页解析库,处理高效,支持多种解析器。利用它就不用编写正则表达式也能方便的实现网页信息的抓取 点击BeautifulSoup,快速上手Python BeautifulSoup库的操作使用,这里就 阅读全文
posted @ 2017-07-23 19:49 Wilson_Blogs 阅读(167) 评论(0) 推荐(0) 编辑
摘要:Requests Requests是用python语言基于urllib编写的,采用的是Apache2 Licensed开源协议的HTTP库,requests是python实现的最简单易用的HTTP库,爬虫使用requests库相比较urllib库更加功能强大。 点击Requests,快速上手Pyth 阅读全文
posted @ 2017-07-23 11:51 Wilson_Blogs 阅读(162) 评论(0) 推荐(0) 编辑
摘要:Urllib库 Urllib是python内置的HTTP请求库,包括以下模块:urllib.request (请求模块)、urllib.error( 异常处理模块)、urllib.parse (url解析模块)、urllib.robotparser (robots.txt解析模块) 一、urllib 阅读全文
posted @ 2017-07-22 20:13 Wilson_Blogs 阅读(295) 评论(0) 推荐(0) 编辑
摘要:Python爬虫 一、爬虫的本质是什么? 模拟浏览器打开网页,获取网页中我们想要的那部分数据 浏览器打开网页的过程:当你在浏览器中输入地址后,经过DNS服务器找到服务器主机,向服务器发送一个请求,服务器经过解析后发送给用户浏览器结果,包括html,js,css等文件内容,浏览器解析出来最后呈现给用户 阅读全文
posted @ 2017-07-21 17:25 Wilson_Blogs 阅读(330) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示