2017 年 2月 8 日随笔档案 - 知行Lee

2017年2月8日

摘要：前言在上一节中介绍了thread多线程库。python中的多线程其实并不是真正的多线程，并不能做到充分利用多核CPU资源。如果想要充分利用，在python中大部分情况需要使用多进程，那么这个包就叫做 multiprocessing。借助它，可以轻松完成从单进程到并发执行的转换。multipro 阅读全文

posted @ 2017-02-08 21:58 知行Lee 阅读(4831) 评论(0) 推荐(1) 编辑

Python爬虫进阶五之多线程的用法

摘要：前言我们之前写的爬虫都是单个线程的？这怎么够？一旦一个地方卡到不动了，那不就永远等待下去了？为此我们可以使用多线程或者多进程来处理。首先声明一点！多线程和多进程是不一样的！一个是 thread 库，一个是 multiprocessing 库。而多线程 thread 在 Python 里面被称作阅读全文

posted @ 2017-02-08 21:56 知行Lee 阅读(13499) 评论(0) 推荐(1) 编辑

Python爬虫进阶四之PySpider的用法

摘要：审时度势 PySpider 是一个我个人认为非常方便并且功能强大的爬虫框架，支持多线程爬取、JS动态解析，提供了可操作界面、出错重试、定时爬取等等的功能，使用非常人性化。本篇内容通过跟我做一个好玩的 PySpider 项目，来理解 PySpider 的运行流程。招兵买马具体的安装过程请查看本节阅读全文

posted @ 2017-02-08 21:56 知行Lee 阅读(17431) 评论(1) 推荐(2) 编辑

Python爬虫进阶三之Scrapy框架安装配置

摘要：初级的爬虫我们利用urllib和urllib2库以及正则表达式就可以完成了，不过还有更加强大的工具，爬虫框架Scrapy，这安装过程也是煞费苦心哪，在此整理如下。 Windows 平台：我的系统是 Win7，首先，你要有Python，我用的是2.7.7版本，Python3相仿，只是一些源文件不同。阅读全文

posted @ 2017-02-08 21:55 知行Lee 阅读(1101) 评论(0) 推荐(0) 编辑

Python爬虫进阶一之爬虫框架概述

摘要：综述爬虫入门之后，我们有两条路可以走。一个是继续深入学习，以及关于设计模式的一些知识，强化Python相关知识，自己动手造轮子，继续为自己的爬虫增加分布式，多线程等功能扩展。另一条路便是学习一些优秀的框架，先把这些框架用熟，可以确保能够应付一些基本的爬虫任务，也就是所谓的解决温饱问题，然后再深入阅读全文

posted @ 2017-02-08 21:54 知行Lee 阅读(2295) 评论(0) 推荐(0) 编辑

Python爬虫进阶二之PySpider框架安装配置

摘要：关于首先，在此附上项目的地址，以及官方文档 PySpider 官方文档安装 1. pip 首先确保你已经安装了pip，若没有安装，请参照 pip安装 2. phantomjs PhantomJS 是一个基于 WebKit 的服务器端 JavaScript API。它全面支持web而不需浏览器支持阅读全文

posted @ 2017-02-08 21:54 知行Lee 阅读(996) 评论(0) 推荐(0) 编辑

Python爬虫利器六之PyQuery的用法

摘要：前言你是否觉得 XPath 的用法多少有点晦涩难记呢？你是否觉得 BeautifulSoup 的语法多少有些悭吝难懂呢？你是否甚至还在苦苦研究正则表达式却因为少些了一个点而抓狂呢？你是否已经有了一些前端基础了解选择器却与另外一些奇怪的选择器语法混淆了呢？嗯，那么，前端大大们的福音来了，Py 阅读全文

posted @ 2017-02-08 21:52 知行Lee 阅读(4847) 评论(0) 推荐(0) 编辑

Python爬虫利器五之Selenium的用法

摘要：前言在上一节我们学习了 PhantomJS 的基本用法，归根结底它是一个没有界面的浏览器，而且运行的是 JavaScript 脚本，然而这就能写爬虫了吗？这又和Python有什么关系？说好的Python爬虫呢？库都学完了你给我看这个？客官别急，接下来我们介绍的这个工具，统统解决掉你的疑惑。简介阅读全文

posted @ 2017-02-08 21:51 知行Lee 阅读(89396) 评论(1) 推荐(6) 编辑

Python爬虫利器四之PhantomJS的用法

摘要：前言大家有没有发现之前我们写的爬虫都有一个共性，就是只能爬取单纯的html代码，如果页面是JS渲染的该怎么办呢？如果我们单纯去分析一个个后台的请求，手动去摸索JS渲染的到的一些结果，那简直没天理了。所以，我们需要有一些好用的工具来帮助我们像浏览器一样渲染JS处理的页面。其中有一个比较常用的工具，阅读全文

posted @ 2017-02-08 21:50 知行Lee 阅读(23772) 评论(0) 推荐(1) 编辑

Python爬虫利器二之Beautiful Soup的用法

摘要：上一节我们介绍了正则表达式，它的内容其实还是蛮多的，如果一个正则匹配稍有差池，那可能程序就处在永久的循环之中，而且有的小伙伴们也对写正则表达式的写法用得不熟练，没关系，我们还有一个更强大的工具，叫Beautiful Soup，有了它我们可以很方便地提取出HTML或XML标签中的内容，实在是方便，这一阅读全文

posted @ 2017-02-08 21:49 知行Lee 阅读(3265) 评论(0) 推荐(0) 编辑

Python爬虫利器三之Xpath语法与lxml库的用法

摘要：前言前面我们介绍了 BeautifulSoup 的用法，这个已经是非常强大的库了，不过还有一些比较流行的解析库，例如 lxml，使用的是 Xpath 语法，同样是效率比较高的解析方法。如果大家对 BeautifulSoup 使用不太习惯的话，可以尝试下 Xpath。参考来源 lxml用法源自 l 阅读全文

posted @ 2017-02-08 21:49 知行Lee 阅读(31811) 评论(0) 推荐(0) 编辑

Python爬虫利器一之Requests库的用法

摘要：前言之前我们用了 urllib 库，这个作为入门的工具还是不错的，对了解一些爬虫的基本理念，掌握爬虫爬取的流程有所帮助。入门之后，我们就需要学习一些更加高级的内容和工具来方便我们的爬取。那么这一节来简单介绍一下 requests 库的基本用法。注：Python 版本依然基于 2.7 官方文档以阅读全文

posted @ 2017-02-08 21:47 知行Lee 阅读(6055) 评论(0) 推荐(0) 编辑

Python爬虫实战七之计算大学本学期绩点

摘要：大家好，本次为大家带来的项目是计算大学本学期绩点。首先说明的是，博主来自山东大学，有属于个人的学生成绩管理系统，需要学号密码才可以登录，不过可能广大读者没有这个学号密码，不能实际进行操作，所以最主要的还是获取它的原理。最主要的是了解cookie的相关操作。本篇目标 1.模拟登录学生成绩管理系统 2 阅读全文

posted @ 2017-02-08 21:46 知行Lee 阅读(925) 评论(0) 推荐(0) 编辑

Python爬虫实战八之利用Selenium抓取淘宝匿名旺旺

摘要：更新其实本文的初衷是为了获取淘宝的非匿名旺旺，在淘宝详情页的最下方有相关评论，含有非匿名旺旺号，快一年了淘宝都没有修复这个。可就在今天，淘宝把所有的账号设置成了匿名显示，SO，获取非匿名旺旺号已经不可能了。那本节就带大家抓取匿名旺旺号熟悉一下Selenium吧。 2016/7/1 前言嗯，淘宝阅读全文

posted @ 2017-02-08 21:46 知行Lee 阅读(2393) 评论(0) 推荐(0) 编辑

Python爬虫实战六之抓取爱问知识人问题并保存至数据库

摘要：大家好，本次为大家带来的是抓取爱问知识人的问题并将问题和答案保存到数据库的方法，涉及的内容包括： Urllib的用法及异常处理 Beautiful Soup的简单应用 MySQLdb的基础用法正则表达式的简单应用环境配置在这之前，我们需要先配置一下环境，我的Python的版本为2.7，需要额外阅读全文

posted @ 2017-02-08 21:45 知行Lee 阅读(951) 评论(0) 推荐(0) 编辑

Python爬虫实战五之模拟登录淘宝并获取所有订单

摘要：经过多次尝试，模拟登录淘宝终于成功了，实在是不容易，淘宝的登录加密和验证太复杂了，煞费苦心，在此写出来和大家一起分享，希望大家支持。温馨提示更新时间，2016-02-01，现在淘宝换成了滑块验证了，比较难解决这个问题，以下的代码没法用了，仅作学习参考研究之用吧。本篇内容 1. python模拟阅读全文

posted @ 2017-02-08 21:44 知行Lee 阅读(3836) 评论(0) 推荐(0) 编辑

Python爬虫实战四之抓取淘宝MM照片

摘要：福利啊福利，本次为大家带来的项目是抓取淘宝MM照片并保存起来，大家有没有很激动呢？最新动态更新时间：2015/8/2 最近好多读者反映代码已经不能用了，原因是淘宝索引页的MM链接改了。网站改版了，URL的索引已经和之前的不一样了，之前可以直接跳转到每个MM的个性域名，现在中间加了一个跳转页，本以阅读全文

posted @ 2017-02-08 21:43 知行Lee 阅读(770) 评论(0) 推荐(0) 编辑

Python爬虫实战三之实现山东大学无线网络掉线自动重连

摘要：综述最近山大软件园校区QLSC_STU无线网掉线掉的厉害，连上之后平均十分钟左右掉线一次，很是让人心烦，还能不能愉快地上自习了？能忍吗？反正我是不能忍了，嗯，自己动手，丰衣足食！写个程序解决掉它！假若你不能连这个无线，那就照照思路啦～决战前夕首先我们看一下那个验证页面是咋样滴，上个图先嘿，阅读全文

posted @ 2017-02-08 21:42 知行Lee 阅读(1421) 评论(0) 推荐(0) 编辑

Python爬虫实战二之爬取百度贴吧帖子

摘要：大家好，上次我们实验了爬取了糗事百科的段子，那么这次我们来尝试一下爬取百度贴吧的帖子。与上一篇不同的是，这次我们需要用到文件的相关操作。前言亲爱的们，教程比较旧了，百度贴吧页面可能改版，可能代码不好使，八成是正则表达式那儿匹配不到了，请更改一下正则，当然最主要的还是帮助大家理解思路。 2016/ 阅读全文

posted @ 2017-02-08 21:41 知行Lee 阅读(1087) 评论(0) 推荐(0) 编辑

Python爬虫实战一之爬取糗事百科段子

摘要：大家好，前面入门已经说了那么多基础知识了，下面我们做几个实战项目来挑战一下吧。那么这次为大家带来，Python爬取糗事百科的小段子的例子。首先，糗事百科大家都听说过吧？糗友们发的搞笑的段子一抓一大把，这次我们尝试一下用爬虫把他们抓取下来。友情提示糗事百科在前一段时间进行了改版，导致之前的代码没阅读全文

posted @ 2017-02-08 21:40 知行Lee 阅读(1369) 评论(1) 推荐(0) 编辑

知行Lee

公告