闹着玩下网已屏蔽百度搜索引擎
自从发表百度App的问题后,闹着玩下网似乎被K了,本来就想屏蔽百度,不过除了淘宝,一般很少有网站会去主动屏蔽搜索引擎,那差不多是断了流量来源,个人博客几乎不会这么做,为什么建议屏蔽呢?
因为百度出个文心一言,这个所谓的文心一言大模型其实是通过读取搜索引擎内容训练学习,文心一言默认强制启用百度搜索插件,说是为了保证生成更实时准确的信息,还不支持关闭。
之前闹着玩下网百度收录相当快,百度蜘蛛每天来,发布文章后秒录,让人受宠若惊。可是你要意识到,你的文章一旦被百度抓取收录后,就不是你的了。
百度可以任意使用你的内容,并且不会注明出处,把你的文章重新表达下,就变成文心一言说的了,根本没有引用来源,如果你在内容上加了文字水印,直接拿去,也是搞笑,当然这后面肯定会改进(去文字水印)。
网站如果要屏蔽百度蜘蛛来访,直接修改网站的根目录文件“robots.txt”,这是最简单方便的方法:
User-agent: Baiduspider Disallow: /
如果只允许抓取首页,可以这样修改:
User-agent: Baiduspider Disallow: / Allow: /$
但蜘蛛不一定会遵守协议,比如淘宝还是被百度收录了,只是收录的比较少。
本文来自闹着玩下网(www.nZoneX.com),作者:nZone,转载请注明原文链接:https://www.cnblogs.com/nzone/p/nzonex-baiduspider.html
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】博客园社区专享云产品让利特惠,阿里云新客6.5折上折
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 微软正式发布.NET 10 Preview 1:开启下一代开发框架新篇章
· 没有源码,如何修改代码逻辑?
· DeepSeek R1 简明指南:架构、训练、本地部署及硬件要求
· NetPad:一个.NET开源、跨平台的C#编辑器
· PowerShell开发游戏 · 打蜜蜂