摘要: 这两天自学了python写爬虫,总结一下: 开发目的:抓取百度百科python词条页面的1000个网页 设计思路: 1,了解简单的爬虫架构: 2,动态的执行流程: 3,各部分的实现: URL管理器:python内存 网页下载器:python3自带的urllib模块 网页解析器:使用第三方插Beaut 阅读全文
posted @ 2016-05-22 16:40 左岸繁华右岸殇 阅读(2470) 评论(0) 推荐(1) 编辑