python 爬虫 - 随笔分类 - Wilson_Blogs

Python爬虫-- Scrapy框架

摘要：Scrapy框架 Scrapy使用了Twisted作为框架，Twisted有些特殊的地方是它是事件驱动的，并且比较适合异步的代码。对于会阻塞线程的操作包含访问文件、数据库或者Web、产生新的进程并需要处理新进程的输出(如运行shell命令)、执行系统层次操作的代码(如等待系统队列),Twisted提阅读全文

posted @ 2017-07-26 08:13 Wilson_Blogs 阅读(162) 评论(0) 推荐(0)

Python爬虫-- selenium库

摘要：selenium库 selenium 是一套完整的web应用程序测试系统，包含了测试的录制（selenium IDE）,编写及运行（Selenium Remote Control）和测试的并行处理（Selenium Grid）。Selenium的核心Selenium Core基于JsUnit，完全由阅读全文

posted @ 2017-07-24 16:07 Wilson_Blogs 阅读(175) 评论(0) 推荐(0)

Python爬虫-- PyQuery库

摘要：PyQuery库 PyQuery库也是一个非常强大又灵活的网页解析库，PyQuery 是 Python 仿照 jQuery 的严格实现。语法与 jQuery 几乎完全相同，所以不用再去费心去记一些奇怪的方法了。官网地址：http://pyquery.readthedocs.io/en/latest 阅读全文

posted @ 2017-07-23 20:02 Wilson_Blogs 阅读(202) 评论(0) 推荐(0)

Python爬虫-- BeautifulSoup库

摘要：BeautifulSoup库 beautifulsoup就是一个非常强大的工具，爬虫利器。一个灵活又方便的网页解析库，处理高效，支持多种解析器。利用它就不用编写正则表达式也能方便的实现网页信息的抓取点击BeautifulSoup，快速上手Python BeautifulSoup库的操作使用，这里就阅读全文

posted @ 2017-07-23 19:49 Wilson_Blogs 阅读(174) 评论(0) 推荐(0)

Python爬虫--Requests库

摘要：Requests Requests是用python语言基于urllib编写的，采用的是Apache2 Licensed开源协议的HTTP库，requests是python实现的最简单易用的HTTP库，爬虫使用requests库相比较urllib库更加功能强大。点击Requests，快速上手Pyth 阅读全文

posted @ 2017-07-23 11:51 Wilson_Blogs 阅读(174) 评论(0) 推荐(0)

Python爬虫--Urllib库

摘要：Urllib库 Urllib是python内置的HTTP请求库，包括以下模块：urllib.request （请求模块）、urllib.error（异常处理模块）、urllib.parse （url解析模块)、urllib.robotparser （robots.txt解析模块）一、urllib 阅读全文

posted @ 2017-07-22 20:13 Wilson_Blogs 阅读(327) 评论(0) 推荐(0)

Python爬虫--初识爬虫

摘要：Python爬虫一、爬虫的本质是什么？模拟浏览器打开网页，获取网页中我们想要的那部分数据浏览器打开网页的过程：当你在浏览器中输入地址后，经过DNS服务器找到服务器主机，向服务器发送一个请求，服务器经过解析后发送给用户浏览器结果，包括html,js,css等文件内容，浏览器解析出来最后呈现给用户阅读全文

posted @ 2017-07-21 17:25 Wilson_Blogs 阅读(354) 评论(0) 推荐(0)

Wilson

随笔分类 - python 爬虫

公告