07 2015 档案

摘要:我们使用dmoz.org这个网站来作为小抓抓一展身手的对象。首先先要回答一个问题。问:把网站装进爬虫里,总共分几步?答案很简单,四步:新建项目 (Project):新建一个新的爬虫项目明确目标(Items):明确你想要抓取的目标制作爬虫(Spider):制作爬虫开始爬取网页存储内容(Pipeline... 阅读全文
posted @ 2015-07-29 22:58 hzs319 阅读(211) 评论(0) 推荐(0) 编辑
摘要:Python正则表达式指南本文介绍了Python对于正则表达式的支持,包括正则表达式基础以及Python正则表达式标准库的完整介绍及使用示例。本文的内容不包括如何编写高效的正则表达式、如何优化正则表达式,这些主题请查看其他教程。注意:本文基于Python2.4完成;如果看到不明白的词汇请记得百度谷歌... 阅读全文
posted @ 2015-07-25 22:00 hzs319 阅读(230) 评论(0) 推荐(0) 编辑