网络爬虫的基本实现步骤

The WebSite is the api...

以下5个步骤逐步加深

  • Requests  

  实现自动爬去网络页面,自动网络请求提交。

  • Robots协议 

  仔细阅读每个平台的robots协议,了解那些爬虫是被拒绝的。

  • BeautifulSoup

  解析获得的每个HTML页面。

  • RE   

  正则表达式详情,提取每个页面的关键信息。

  • scrapy

  深度爬虫框架实现更复杂的功能。           

posted @ 2018-07-06 18:14  まだまだだわ  阅读(1749)  评论(0编辑  收藏  举报