不要使用 403 或 404 进行速率限制

跨境快讯 2024-02-01 03:09:31 woniu
2
导读:在过去的几个月里,我们注意到网站所有者和一些内容分发网络 (CDN) 尝试使用404其他4xx客户端错误(但不是 429)来尝试降低 Googlebot 的抓取速度的情况有所增加。

这篇博文的简短版本是:请不要这样做;我们有关于 如何降低 Googlebot 抓取速度的文档。请阅读该文章并了解如何有效管理 Googlebot 的抓取速度。

回到基础:4xx错误是针对客户端错误的
服务器返回给客户端的错误4xx是来自服务器的信号,表明客户端的请求在某种意义上是错误的。此类别中的大多数错误都是相当良性的:“未找到”错误、“禁止”、“我是一个茶壶”(是的,就是这样)。他们并没有表明服务器本身有任何问题。

一个例外是429,它代表“太多请求”。这个错误向任何表现良好的机器人(包括我们心爱的 Googlebot)发出了一个明确的信号:它需要放慢速度,因为它使服务器超载。

为什么4xx错误不利于 Googlebot 的速率限制(除了429)
客户端错误就是:客户端错误。他们通常不会建议服务器出现错误:不是服务器过载,也不是遇到严重错误并且无法响应请求。他们只是意味着客户的要求在某种程度上是不好的。没有明智的方法可以将404错误等同于服务器过载。想象一下,如果是这样的话:您的朋友意外链接到您网站上的错误页面,从而导致大量404错误,而 Googlebot 的抓取速度也会随之减慢。那会很糟糕。同样适用于403, 410, 418。

同样,最大的例外是429状态代码,它翻译为“请求太多”。

4xx对 Googlebot有何速率限制
所有4xxHTTP 状态代码(同样,除了429)都会导致您的内容从 Google 搜索中删除。更糟糕的是,如果您还为 robots.txt 文件提供 4xxHTTP 状态代码,则该文件将被视为不存在。如果你有一条规则不允许抓取你的脏衣服,现在 Googlebot 也知道了;对任何一方都不好。

如何降低Googlebot的抓取速度,正确的方法
我们有大量关于 如何降低 Googlebot 抓取速度 以及 Googlebot(和搜索索引)如何处理不同 HTTP 状态代码的文档;一定要检查一下。简而言之,您想要执行以下任一操作:
使用 Search Console 暂时降低抓取速度。
当 Googlebot 抓取速度过快时,向其 返回500、503或HTTP 状态代码429


原文链接:https://developers.google.com/search/blog/2023/02/dont-404-my-yum

版权声明: woniu 发表于 2024-02-01 03:09:31。
转载请注明: 不要使用 403 或 404 进行速率限制 | 跨境湾

相关文章