06 2016 档案

网络爬虫（5）--小实战

摘要：到目前为止，我们学习了如何访问远程网站，如何解析页面内容，是时候开始应用一下了。在这里，我们以通过http://www.heibanke.com/lesson/crawler_ex00/为例，这个网站会告诉我们爬虫应该向哪里链接，直到爬到通过为止。首先我们需要查看网页的源代码，确定我们需要的信息在阅读全文

posted @ 2016-06-27 20:47 CoderInCV 阅读(566) 评论(0) 推荐(0) 编辑

网络爬虫（4）--正则表达式

摘要：正则表达式在文本匹配中使用广泛。网络爬虫中往往涉及对页面某些信息的提取，正则表达式能够极大的简化我们对信息的筛选过程。对正则表达式的学习可以参考http://www.runoob.com/python/python-reg-expressions.html 我们以对一个邮箱的正则匹配为例，介绍正则阅读全文

posted @ 2016-06-26 17:54 CoderInCV 阅读(1967) 评论(0) 推荐(0) 编辑

网络爬虫（3）--Beautiful页面解析

摘要：前面2节中对页面内容的访问都是直接通过标签访问的，这样虽然也可以达到解析页面内容的目的，但是在网页复杂，页面结构发生变化时，爬虫就失效了。为了使爬虫能够更加鲁棒的工作，我们需要学习通过属性查找标签的方法。 BeautifulSoup的find()和findAll()方法： BeautifulSoup 阅读全文

posted @ 2016-06-26 16:19 CoderInCV 阅读(463) 评论(0) 推荐(0) 编辑

网络爬虫（2）--异常处理

摘要：上一节中对网络爬虫的学习的准备工作作了简要的介绍，并以一个简单的网页爬取为例子。但网络是十分复杂的，对网站的访问并不一定都会成功，因此需要对爬取过程中的异常情况进行处理，否则爬虫在遇到异常情况时就会发生错误停止运行。让我们看看urlopen中可能出现的异常： html = urlopen("htt 阅读全文

posted @ 2016-06-22 19:13 CoderInCV 阅读(2104) 评论(1) 推荐(1) 编辑

网络爬虫（1）--准备工作

摘要：网络爬虫是根据一定的规则自动的对网络信息进行抓取，为了对爬虫有更深的了解，学习爬虫前有必要先了解一下一个网页打开的完整过程，可以参考http://blog.csdn.net/saiwaifeike/article/details/8789624 接下来就是需要安装和了解常用的2个相关库，一个是url 阅读全文

posted @ 2016-06-22 16:42 CoderInCV 阅读(679) 评论(0) 推荐(0) 编辑