2017 年 2月 14 日随笔档案 - 你的踏板车要滑向哪里

2017年2月14日

摘要：爬取百度百科1000个页面的数据 1. 准备工作：确定目标 => 分析目标（URL格式, 数据格式, 网页编码） => 编写代码 => 执行爬虫 1.1 链接分析：进入百度百科“Python”词条页面：http://baike.baidu.com/view/21087.htm => 在链接位置右阅读全文

posted @ 2017-02-14 14:32 你的踏板车要滑向哪里阅读(376) 评论(0) 推荐(0) 编辑

Python 开发简单爬虫 - 基础框架

摘要： 1. 目标：开发轻量级爬虫（不包括需登陆的和 Javascript异步加载的）不需要登陆的静态网页抓取 2. 内容： 2.1 爬虫简介 2.2 简单爬虫架构 2.3 URL管理器 2.4 网页下载器（urllib2） 2.5 网页解析器（BeautifulSoup） 2.6 完整实例：爬取百度百阅读全文

posted @ 2017-02-14 12:32 你的踏板车要滑向哪里阅读(1910) 评论(0) 推荐(0) 编辑

你的踏板车要滑向哪里

导航

公告