摘要:
爬取百度百科1000个页面的数据 1. 准备工作: 确定目标 => 分析目标(URL格式, 数据格式, 网页编码) => 编写代码 => 执行爬虫 1.1 链接分析: 进入百度百科“Python”词条页面:http://baike.baidu.com/view/21087.htm => 在链接位置右 阅读全文
摘要:
1. 目标:开发轻量级爬虫(不包括需登陆的 和 Javascript异步加载的) 不需要登陆的静态网页抓取 2. 内容: 2.1 爬虫简介 2.2 简单爬虫架构 2.3 URL管理器 2.4 网页下载器(urllib2) 2.5 网页解析器(BeautifulSoup) 2.6 完整实例:爬取百度百 阅读全文