博客园博主们的反击
相信不少博主都习惯了各种爬虫,各种采集了吧。前些时间好像有个朋友在抱怨博客园怎么没有对我们知识结晶进行保护。
其实采集就采集吧,不加作者信息也就算了,最可恶的是不保留作者信息。
好吧,不扯蛋了,我们进入正题。
我测试过多种方法,比如在开头加上隐藏的作者信息,或者原文链接等等方法。
可是机器人也不是吃素的,现在好多机器人都会过滤我们的 a 标签,过滤 js 就更不用说了。
经过多次尝试分析,发现他们采集内容后,都重新整理,比 img 重新提取 src 地址,然后替换会原处,这样我们在 img 上加什么都没用。
昨天,我在《阻止函数源码在控制台输出》一文里加入了一个隐藏的图片,然后等爬虫来抓。
1 | < img class="nop" src="http://image.gamersky.com/error/404.jpg" > |
1 2 3 | .nop { display : none ; } |
今天我去搜索这篇文章,发现大部分都是显示了那张隐藏的图片。
就像这样,一打开看到的就是 404 的图片。
当然这个算比较客气的。。
所以我们就利用隐藏图片进行反击吧。
最狠的是我们群里的一个兄弟,说发黄图,然后去举报他们,这招够阴险。
不过这个对自己应该也有影响。
搜索引擎爬我们站的时候,隐藏节点他也能抓到的,所以还是别冒险。
我们可以搞个自己的版权声明图片让他们抓。
具体什么内容,就发挥大家自己的想象吧。
好了,今天就分享这点小东西吧。
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】博客园社区专享云产品让利特惠,阿里云新客6.5折上折
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 没有源码,如何修改代码逻辑?
· 一个奇形怪状的面试题:Bean中的CHM要不要加volatile?
· [.NET]调用本地 Deepseek 模型
· 一个费力不讨好的项目,让我损失了近一半的绩效!
· .NET Core 托管堆内存泄露/CPU异常的常见思路
· 微软正式发布.NET 10 Preview 1:开启下一代开发框架新篇章
· 没有源码,如何修改代码逻辑?
· NetPad:一个.NET开源、跨平台的C#编辑器
· PowerShell开发游戏 · 打蜜蜂
· 凌晨三点救火实录:Java内存泄漏的七个神坑,你至少踩过三个!