2016 年 6月 26 日随笔档案 - CoderInCV

2016年6月26日

摘要：正则表达式在文本匹配中使用广泛。网络爬虫中往往涉及对页面某些信息的提取，正则表达式能够极大的简化我们对信息的筛选过程。对正则表达式的学习可以参考http://www.runoob.com/python/python-reg-expressions.html 我们以对一个邮箱的正则匹配为例，介绍正则阅读全文

posted @ 2016-06-26 17:54 CoderInCV 阅读(1962) 评论(0) 推荐(0) 编辑

网络爬虫（3）--Beautiful页面解析

摘要：前面2节中对页面内容的访问都是直接通过标签访问的，这样虽然也可以达到解析页面内容的目的，但是在网页复杂，页面结构发生变化时，爬虫就失效了。为了使爬虫能够更加鲁棒的工作，我们需要学习通过属性查找标签的方法。 BeautifulSoup的find()和findAll()方法： BeautifulSoup 阅读全文

posted @ 2016-06-26 16:19 CoderInCV 阅读(458) 评论(0) 推荐(0) 编辑

Awesome Computer Vision

公告