第7章 实战演练:爬取百度百科1000个页
实例爬虫
第一节 爬虫步骤
确定目标---分析目标即抓取策略(URL格式、数据格式、网页编码)---编写代码---执行爬虫
目标:百度百科python词条相关词条网页---标题和简介
入口页:http://baike.baidu.com/item/Python
URL格式:
词条页面URL:/view/125370.html
数据格式:
标题
简介
页面编码:UTF-8
第二节 调度程序
具体代码:https://github.com/saisai1002/spider_demo