爬虫（一）

什么是爬虫?

就是一个应用程序，提取网络有效数据，为我所用。尤其是做一些资源网站，比如电影，小说网站，他们本身可能没有那么多的数据，所以需要到网络上的其他网站上寻找资源。注意，爬取到的数据只是浏览器能获取到的数据。

爬虫攻防的一些策略

（1）Robots协议

这个协议是没有强制限制，要真想要爬取这个网站的数据的话，也还是能获取。就是放一个文档在这里，告诉你哪些数据不能被爬取，防君子不防小人。

（2）在服务器加限制

因为正常我们在访问网站的时候不会频繁的刷新网页，但是爬虫在读取数据的时候短时间内会频繁调用，所以在服务器端如果检测到请求短时间内过多，就把你的IP限制一下，比如返回错误界面。

（3）限定必须登录才能获取数据；一般登录都是用的session，cookie，所以这样也还是能突破的，看下图:

只要是模拟的请求的cookie的数据够真实，就能够突破。

（4）验证码，这种方式比较友好。当然也是能突破。

（5）js算法

看下面的截图，真实显示的值并不是浏览器获取到的值，这是他们自己的一套算法。

只要是http请求，没有绝对的安全，都是可以突破的。任何反爬虫策略都是可以突破的，只不过可能成本比较高。

爬虫步骤

（1）获取页面的html(通过模拟http请求)

这里我们通过httpwebrequest来模拟请求。模拟请求的时候一些相关的信息在这里也能看到：

（2）筛选过滤有用信息

（3）汇总，数据入库

posted @ 2021-10-15 17:09 安静点-- 阅读(37) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

阅读排行：
· 阿里巴巴 QwQ-32B真的超越了 DeepSeek R-1吗？
· 10年+ .NET Coder 心语 ── 封装的思维：从隐藏、稳定开始理解其本质意义
· 【设计模式】告别冗长if-else语句：使用策略模式优化代码结构
· 字符编码：从基础到乱码解决
· 提示词工程——AI应用必不可少的技术

昵称：安静点--
园龄： 5年9个月
粉丝： 14
关注： 31

2025年3月

日

一

二

三

四

五

六