第7章 实战演练:爬取百度百科1000个页

实例爬虫
第一节  爬虫步骤
确定目标---分析目标即抓取策略(URL格式、数据格式、网页编码)---编写代码---执行爬虫
目标:百度百科python词条相关词条网页---标题和简介
入口页:http://baike.baidu.com/item/Python
URL格式:
    词条页面URL:/view/125370.html
数据格式:
    标题
    简介
页面编码:UTF-8
第二节  调度程序

具体代码:https://github.com/saisai1002/spider_demo

posted @ 2017-08-15 16:28  怪咖在骚动  阅读(139)  评论(0编辑  收藏  举报