机器人流量:它是什么以及为什么您应该关心它

跨境快讯 2024-02-01 15:07:40 woniu
2
导读:机器人已成为当今数字空间不可或缺的一部分。他们帮助我们订购杂货,在 Slack 频道上播放音乐,并向同事支付他们给我们买的美味冰沙的报酬。机器人还遍布互联网以执行其设计的功能。但这对网站所有者意味着什么?(也许更重要的是)这对环境意味着什么?请继续阅读,了解您需要了解的关于机器人流量的信息以及为什么您应该关心它!

什么是机器人?
让我们从基础知识开始:机器人是一种软件应用程序,旨在通过互联网执行自动化任务。机器人可以模仿甚至取代真实用户的行为。他们非常擅长执行重复性和平凡的任务。它们还快速高效,这使得它们成为您需要进行大规模操作时的完美选择。

什么是机器人流量?
机器人流量是指网站或应用程序的任何非人类流量。这在互联网上是很正常的事情。如果您拥有一个网站,那么您很可能已被机器人访问过。事实上,目前机器人流量几乎占所有互联网流量的 30% 。

机器人流量很差吗?
您可能听说过机器人流量对您的网站不利。在很多情况下,确实如此。但也有好的、合法的机器人。这取决于机器人的目的及其创建者的意图。有些机器人对于操作搜索引擎或个人助理等数字服务至关重要。然而,一些机器人想要暴力进入您的网站并窃取敏感信息。那么,哪些机器人是“好”的,哪些是“坏”的?让我们更深入地探讨这个话题。

“好”机器人
“好”机器人执行的任务不会对您的网站或服务器造成损害。他们宣布自己并让您知道他们在您的网站上做了什么。最流行的“好”机器人是搜索引擎爬虫。如果没有爬虫访问您的网站来发现内容,搜索引擎就无法在您搜索某些内容时为您提供信息。因此,当我们谈论“良好”机器人流量时,我们谈论的是这些机器人。

除了搜索引擎爬虫之外,其他一些好的互联网机器人还包括:

SEO 爬虫:如果您从事 SEO 领域,您可能使用过Semrush或Ahrefs等工具来进行关键字研究或深入了解竞争对手。为了让这些工具为您提供信息,它们还需要发送机器人来爬行网络并收集数据。
商业机器人:商业公司发送这些机器人爬行网络以收集信息。例如,研究公司使用它们来监控市场新闻;广告网络需要他们监控和优化展示广告;“优惠券”网站收集折扣代码和销售计划,为网站上的用户提供服务。
站点监控机器人:它们帮助您监控网站的正常运行时间和其他指标。他们定期检查和报告数据,例如服务器状态和正常运行时间。这使您可以在网站出现问题时采取措施。
提要/聚合器机器人:它们收集并组合有新闻价值的内容,以交付给您的网站访问者或电子邮件订阅者。
“坏”机器人
“坏”机器人是出于恶意而创建的。您可能见过垃圾邮件机器人,它们用无意义的评论、不相关的反向链接和恶劣的广告向您的网站发送垃圾邮件。也许您还听说过在线抽奖中抢占人们席位的机器人,或者买断音乐会上好座位的机器人。

正是由于这些恶意机器人,机器人流量才名声不佳,这是理所当然的。不幸的是,当今互联网上充斥着大量不良机器人。

以下是一些您不希望出现在您网站上的机器人:

电子邮件抓取工具:他们收集电子邮件地址并向这些联系人发送恶意电子邮件。
垃圾评论机器人:通过评论和链接向您的网站发送垃圾邮件,将人们重定向到恶意网站。在许多情况下,他们会向您的网站发送垃圾邮件以进行广告或尝试获取指向其网站的反向链接。
抓取机器人:这些机器人来到您的网站并下载它们能找到的所有内容。其中可以包括文本、图像、HTML 文件,甚至视频。然后,机器人操作员将在未经许可的情况下重新使用您的内容。
用于撞库或暴力攻击的机器人:这些机器人将尝试访问您的网站以窃取敏感信息。他们通过尝试像真实用户一样登录来做到这一点。
僵尸网络、僵尸计算机:它们是用于执行 DDoS 攻击的受感染设备的网络。DDoS 代表分布式拒绝服务。在 DDoS 攻击期间,攻击者使用此类设备网络向网站注入机器人流量。这会使您的网络服务器因请求而不堪重负,从而导致网站速度缓慢或无法使用。
库存和 门票机器人:他们去网站购买娱乐活动的门票或批量购买新发布的产品。经纪人利用它们以更高的价格转售门票或产品以获取利润。
为什么您应该关心机器人流量
现在您已经了解了有关机器人流量的一些知识,让我们谈谈为什么您应该关心。

为了您的网站性能
恶意机器人流量会给您的网络服务器带来压力,有时甚至会使其过载。这些机器人通过其请求占用您的服务器带宽,使您的网站速度缓慢或在遭受 DDoS 攻击时完全无法访问。与此同时,您可能会失去其他竞争对手的流量和销售额。

此外,恶意机器人会将自己伪装成常规的人类流量,因此当您检查网站统计数据时它们可能不可见。结果?您可能会看到流量随机激增,但不明白原因。或者,您可能会对为什么收到流量但没有转化感到困惑。正如您可以想象的那样,这可能会损害您的业务决策,因为您没有正确的数据。

为了您的网站安全
恶意机器人也不利于您网站的安全。他们会尝试使用各种用户名/密码组合暴力进入您的网站,或者寻找薄弱的入口点并向其运营商报告。如果您存在安全漏洞,这些恶意玩家甚至可能会尝试在您的网站上安装病毒并将其传播给您的用户。如果您拥有一家在线商店,则必须管理敏感信息,例如黑客喜欢窃取的信用卡详细信息。

为了环境
您知道机器人流量会影响环境吗?当机器人访问您的网站时,它会向您的服务器发出 HTTP 请求以获取信息。您的服务器需要响应,然后返回必要的信息。每当这种情况发生时,你的服务器就必须花费少量的能量来完成请求。现在,考虑一下互联网上有多少机器人。您可能可以想象,机器人流量消耗的能量是巨大的!

从这个意义上说,好或坏的机器人访问您的网站并不重要。过程还是一样的。两者都使用能源来执行任务,并且都会对环境产生影响。

尽管搜索引擎是互联网的重要组成部分,但它们也存在浪费问题。他们可能会多次访问您的网站,甚至无法接受正确的更改。我们建议检查您的服务器日志,以了解爬网程序和机器人访问您网站的次数。此外,Google Search Console 中还有一个抓取统计信息报告,它还可以告诉您 Google 抓取您网站的次数。您可能会对那里的一些数字感到惊讶。

Yoast 的一个小案例研究
我们以 Yoast 为例。在任何一天,Google 抓取工具都可以访问我们的网站 10,000 次。频繁访问我们似乎很合理,但他们只抓取了 4,500 个唯一 URL。这意味着能量被用来一遍又一遍地爬行重复的 URL。尽管我们定期发布和更新我们的网站内容,但我们可能不需要所有这些抓取。这些抓取不仅针对页面,还针对页面。爬虫还会浏览我们的图像、CSS、JavaScript 等。

但这还不是全部。谷歌机器人并不是唯一访问我们的机器人。还有来自其他搜索引擎、数字服务的机器人,甚至还有坏机器人。这种不必要的机器人流量会给我们的网站服务器带来压力,并浪费原本可用于其他有价值活动的能源。

有关 Yoast.com 上抓取行为的统计信息。 在此示例中,Google bot 抓取了 Yoast 9.537 次,抓取了 4,458 个链接。
Google爬虫一天在Yoast.com上的抓取行为统计
您可以对“坏”机器人采取什么措施?
您可以尝试检测不良机器人并阻止它们进入您的网站。这将为您节省大量带宽并减少服务器的压力,从而有助于节省能源。最基本的方法是阻止单个或整个 IP 地址范围。如果您发现某个 IP 地址来自某个来源的不规则流量,则应阻止该地址。这种方法虽然有效,但既费力又费时。

或者,您可以使用Cloudflare等提供商提供的机器人管理解决方案。这些公司拥有丰富的好坏机器人数据库。他们还使用人工智能和机器学习来检测恶意机器人,并在它们对您的网站造成损害之前将其阻止。

安全插件
此外,如果您运行的是 WordPress 网站,则应该安装安全插件。一些更流行的安全插件(如 Sucuri Security 或 Wordfence)是由雇用安全研究人员来监视和修补问题的公司维护的。一些安全插件会自动为您阻止特定的“坏”机器人。其他人让您了解异常流量来自何处,然后让您决定如何处理该流量。

那么“好”机器人呢?
正如我们之前提到的,“好”机器人之所以好,是因为它们的工作至关重要且透明。但它们仍然会消耗大量能量。更不用说,这些机器人甚至可能对你没有帮助。尽管他们所做的事情被认为是“好的”,但他们仍然可能对您的网站和环境不利。那么,您能为优秀机器人做些什么呢?

1. 如果它们没有用,就阻止它们
您必须决定是否希望这些“好”机器人抓取您的网站。他们抓取您的网站对您有好处吗?更具体地说:他们抓取您的网站对您的好处是否大于您的服务器、他们的服务器和环境的成本?

让我们以搜索引擎机器人为例。谷歌并不是唯一的搜索引擎。其他搜索引擎的爬虫很可能也访问过您。如果搜索引擎今天已抓取您的网站 500 次,但只为您带来 10 个访问者,该怎么办?那还有用吗?如果是这种情况,您应该考虑阻止它们,因为无论如何您都无法从该搜索引擎获得太多价值。

2.限制抓取速度
如果机器人支持robots.txt 中的抓取延迟,您应该尝试限制它们的抓取速度。这样,他们就不会每 20 秒回来一次又一次地抓取相同的链接。因为说实话,您可能不会在任何一天更新网站内容 100 次。即使您有更大的网站。

您应该考虑抓取速度,并监控其对您网站的影响。开始时稍微延迟一下,然后在确定不会产生负面后果时增加数量。此外,您还可以为来自不同来源的爬网程序分配特定的爬网延迟率。不幸的是,Google 不支持抓取延迟,因此您不能将其用于 Google 机器人。

3.帮助他们更有效地爬行
您的网站上有很多地方爬虫没有业务。例如,您的内部搜索结果。这就是为什么您应该通过 robots.txt 阻止他们的访问。这不仅可以节省能源,还有助于优化您的抓取预算。

接下来,您可以通过删除 CMS 和插件自动创建的不必要的链接来帮助机器人更好地抓取您的网站。例如,WordPress 会自动为您的网站评论创建 RSS 提要。这个 RSS 提要有一个链接,但几乎没有人会看它,特别是如果您没有很多评论的话。因此,这个 RSS feed 的存在可能不会给您带来任何价值。它只是创建了另一个链接供爬虫重复爬行,在这个过程中浪费能量。

使用 Yoast SEO 优化您的网站抓取
Yoast SEO 有一个有用且可持续的新设置:抓取优化设置!借助20 多个可用开关,您将能够关闭 WordPress 自动添加到您网站的不必要的内容。您可以将爬网设置视为轻松清理网站上不需要的开销的一种方式。例如,您可以选择清理网站的内部网站搜索,以防止 SEO 垃圾邮件攻击!
原文链接:https://yoast.com/what-to-know-about-bot-traffic/

版权声明: woniu 发表于 2024-02-01 15:07:40。
转载请注明: 机器人流量:它是什么以及为什么您应该关心它 | 跨境湾

相关文章