网络爬虫的基本实现步骤

The WebSite is the api...

以下5个步骤逐步加深

Requests

　　实现自动爬去网络页面，自动网络请求提交。

Robots协议

　　仔细阅读每个平台的robots协议，了解那些爬虫是被拒绝的。

BeautifulSoup

　　解析获得的每个HTML页面。

RE

　　正则表达式详情，提取每个页面的关键信息。

scrapy

　　深度爬虫框架实现更复杂的功能。　　

posted @ 2018-07-06 18:14 まだまだだわ阅读(1764) 评论(0) 编辑收藏举报

刷新页面返回顶部