如何面对博文被抓取

昨天把hexo博客的url的日期去掉了,号称说3级以下的地址可以提高爬虫的rank。今天早上输入网址的时候,不小心多带了一个空格,导致变成了google搜索。然后就发现了文章被爬去的事情。打开发现爬去的文章掐头去尾,隐去了作者信息。有的给个原文连接,有的是啥也不给。
昨晚搞到1点多,才搞出来。然后轻轻松松被拿走,然后加广告。。。
所谓的CC by xxx 没有任何意义。看到有个爬虫专门把文章转换成繁体的(好几个),有个更牛逼, 把标题和作者改成自己,图片添加了自己的水印(清屏网)。
所以,花样百出,防不胜防。
首先,应该如何看待这个问题?
我认为既然选择了互联网,就拥抱这种现象吧。起点的作者总是在写文章时不时的加一句看盗版的xxx
, 因为这关系到了作者的切身意义,都是钱啊。 而写博客的呢,这又是为了什么? 是为了记录。那么,被爬去也是没啥坏处的,坏就坏在盗版小说会标注作者,盗版博客会去掉作者。
怎么解决
全手工的盗版,是防不住的。关键是大量的爬虫盗版。这个可以有。爬虫通常掐头去尾,所以把作者写到博客里,把作者写到代码注释里,把作者写到demo里。如果对于盗图有意见,可以加防盗链,可以加水印,或者制作图片的时候就加上作者。
关注我的公众号

【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识(上)
· 浏览器原生「磁吸」效果!Anchor Positioning 锚点定位神器解析
· 没有源码,如何修改代码逻辑?
· 分享4款.NET开源、免费、实用的商城系统
· 全程不用写代码,我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 记一次.NET内存居高不下排查解决与启示
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了