python爬虫-入门-了解爬虫

作为一个爬虫新手,我觉得首先要了解爬虫是的作用以及应用。

作用:通过爬虫获取网页内的信息。包括:标题(title)图片(image)链接(url)等等

应用:抽取所需信息,进行数据汇总及分析(从事网页测试、数据分析工作很容易用到)

 

然后,了解一下爬虫前需要获取哪些信息。

1.哪些网站爬取时有哪些限制

检查robots文件,

user-agent:  Badcrawler  禁止用户代理Badcrawler    user-agent  ·   允许用户代理访问

crawl-delay:   5  用户代理在两次下载请求间给出5s抓取延迟

Disallow: /trap  禁止访问/trap链接,如果访问此链接 会禁止访问端的访问权限

Sitemap: http://example.webscraping.com/sitemap.xml  定义了一个文件Sitemap(网站地图)

 

2.检查网站地图

通过Sitemap文件可以帮爬虫定位最新的内容,而无需爬取每一个网页。当然,这个文件也会存在缺失,过期等不完整问题

 

3.估算网站大小(这个比较复杂,暂时没看明白)

估算网站的大小,使用正确的方法

 

4.了解网站所用的技术及网站所有者


#导入检查网站结构的技术类型模块
import builtwith
#导入协议或域名查询模块
import whois
parse = builtwith.parse('http://example.webscraping.com')
print(parse)
添加 builtwith 以及 whois 库

 

posted @ 2019-04-23 22:08  小陈同学啦  阅读(219)  评论(0编辑  收藏  举报