摘要: 一、正则表达式 之所以叫正则表达式, 是因为它们可以识别正则字符串( regular string) ;也就是说,它们可以这么定义:“ 如果你给我的字符串符合规则,我就返回它”,或者是“如果字符串不符合规则,我就忽略它”。这在要求快速浏览大文档,以查找像电话号码和邮箱地址之类的字符串时是非常方便的。 阅读全文
posted @ 2017-03-18 12:35 猴子的新衣 阅读(519) 评论(0) 推荐(0) 编辑
摘要: Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。 Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为u 阅读全文
posted @ 2017-03-09 14:36 猴子的新衣 阅读(1506) 评论(0) 推荐(0) 编辑
摘要: 网络爬虫,即Web Spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页的。从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址, 然后通过这些链接地址寻找下一个网页,这样一直循环下去, 阅读全文
posted @ 2017-03-04 10:03 猴子的新衣 阅读(2483) 评论(0) 推荐(0) 编辑