意外的 404 错误

在“抓取错误”中,您有时可能会发现针对某些网址的 404 错误,但您认为这些网址并非来源于自己的网站或网络。这些意外网址可能是 Googlebot 尝试跟踪在 JavaScript、Flash 文件或其他嵌入式内容中发现的链接时生成的。

例如,您的网站可能会使用以下代码跟踪在 Google Analytics(分析)中下载的文件:

<a href="helloworld.pdf" onClick="_gaq.push(['_trackPageview','/download-helloworld']);">Hello World PDF</a>

如果 Googlebot 发现了此代码,它可能会尝试抓取网址 http://www.example.com/download-helloworld,即使这并不是真实的网页。在这种情况下,该链接就会在“网站站长工具”的“抓取错误”功能中显示为 404(未找到)错误。

Google 一直在努力检测这类问题并加以解决,以便在“抓取错误”中彻底杜绝此类错误。一般来说,404 错误不会影响您网站的搜索排名,如果您确信这些网址并非来源于自己的网站,则可放心地忽略它们。请务必注意,您应确保上述网址和其他无效网址返回的是正确的 404 HTTP 响应代码,且未遭到网站的 robots.txt 文件的拦截。

转自谷歌站长工具帮助指南http://support.google.com/webmasters/bin/answer.py?hl=zh-Hans&answer=1154698&topic=1724951&ctx=topic

另外,这也证明谷歌会抓取JS,Flash并做简单的链接生成。

posted on 2012-12-05 14:48  alexkh  阅读(141)  评论(0编辑  收藏  举报