python识别网站所用技术
最近在学习一些python爬虫,我们要爬取一个站点,首先要去查看网站的robots协议,如果明确禁止抓取了要遵守,否则可能会带来麻烦。第二步我们要知道网站是用什么技术做的,如何通过python的方法来识别呢?可以用builtwith库来实现(注意是builtwith不是buildwith),当然前提是安装了python
安装方法,win+r,cmd,输入如下代码
1 | pip install builtwith |
如果已经安装好了,会出现下面的提示
进入python
1 2 3 | import builtwith builtwith.parse( 'https://abc.com' ) |
显示如下
但builtwith毕竟是机器判断,有时不一定正确,只可作为参考
1 2 3 | import builtwith builtwith.parse( 'https://www.cnblogs.com/ytkah' ) |
运行结果如下,但是不一定准确
ytkah最近写了比较多的woocommerce文章,所以它判断是wordpress创建的,其实这个是博客园的博客系统,是.net制作的,主页的底部就可以看到
感兴趣的朋友可以安装测试一下

加微信交流
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义
· 地球OL攻略 —— 某应届生求职总结
· 提示词工程——AI应用必不可少的技术
· Open-Sora 2.0 重磅开源!
· 周边上新:园子的第一款马克杯温暖上架
2015-02-26 微信公众号推荐(自己关注的微信公众平台导航)