python识别网站所用技术

　　最近在学习一些python爬虫，我们要爬取一个站点，首先要去查看网站的robots协议，如果明确禁止抓取了要遵守，否则可能会带来麻烦。第二步我们要知道网站是用什么技术做的，如何通过python的方法来识别呢？可以用builtwith库来实现（注意是builtwith不是buildwith），当然前提是安装了python

　　安装方法，win+r，cmd，输入如下代码

1	`pip` `install` `builtwith`

　　如果已经安装好了，会出现下面的提示

　　进入python

import builtwith
 
builtwith.parse('https://abc.com')

　　显示如下

　　但builtwith毕竟是机器判断，有时不一定正确，只可作为参考

import builtwith
 
builtwith.parse('https://www.cnblogs.com/ytkah')

　　运行结果如下，但是不一定准确

　　ytkah最近写了比较多的woocommerce文章，所以它判断是wordpress创建的，其实这个是博客园的博客系统，是.net制作的，主页的底部就可以看到

　　感兴趣的朋友可以安装测试一下

posted @ 2020-02-26 09:19 ytkah 阅读(509) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

阅读排行：
· 10年+ .NET Coder 心语 ── 封装的思维：从隐藏、稳定开始理解其本质意义
· 地球OL攻略 —— 某应届生求职总结
· 提示词工程——AI应用必不可少的技术
· Open-Sora 2.0 重磅开源！
· 周边上新：园子的第一款马克杯温暖上架

历史上的今天：
2015-02-26 微信公众号推荐(自己关注的微信公众平台导航)

公告

在 795000 博客中排第137位！

昵称： ytkah
园龄： 11年6个月
粉丝： 84
关注： 12

+加关注

python识别网站所用技术

公告

最新随笔

随笔档案