Cómo bloquear el acceso a SeekportBot u otros crawHice clic en un sitio web

La mayoría de las veces, cuando necesita bloquear el acceso SeekportBot u otras personas crawl bots con un sitio web, las razones son simples. La araña web realiza demasiados accesos en poco tiempo y solicita los recursos del servidor web, o proviene de un buscador en el que no desea que su sitio web esté indexado.

Es muy beneficioso para un sitio web visitado por crawChoqué con él. Estas arañas web están diseñadas para explorar, procesar e indexar el contenido de las páginas web en los motores de búsqueda. Google y Bing usan tales crawChoqué con él. Sin embargo, también existen motores de búsqueda que utilizan robots para recopilar datos de las páginas web. Seekport es uno de estos motores de búsqueda, que utiliza crawel SeekportBot ler para indexar páginas web. Desafortunadamente, a veces lo usa en exceso y crea tráfico innecesario.

¿Qué es SeekportBot?

SeekportBot es una web crawler desarrollado por la empresa Seekport, que tiene su sede en Alemania (pero utiliza direcciones IP de varios países, incluida Finlandia). Este bot se utiliza para rastrear e indexar sitios web para que puedan mostrarse en los resultados del motor de búsqueda. Seekport. Un motor de búsqueda no funcional, por lo que puedo decir. Al menos, no me devolvió ningún resultado para ninguna frase clave.

SeekportBot Utilizar user agent:

"Mozilla/5.0 (compatible; SeekportBot; +https://bot.seekport.com)"

Cómo bloquear el acceso a SeekportBot u otros crawHice clic en un sitio web

Si ha llegado a la conclusión de que esta araña web u otra, no es necesario escanear todo su sitio web y hacer tráfico innecesario al servidor web, tiene varios métodos para bloquear su acceso.

Cortafuegos a nivel de servidor web

Son aplicaciones de cortafuegos open-source que se puede instalar en los sistemas operativos Linux y se puede configurar para bloquear el tráfico según varios criterios. Dirección IP, ubicación, puertos, protocolos o agente de usuario.

APF (Advanced Policy Firewall) es un software de este tipo a través del cual puede bloquear bots no deseados, a nivel de servidor.

Debido a que SeekportBot y otras arañas web utilizan varios bloques de direcciones IP, la regla de bloqueo más efectiva se basa en "user agent". Entonces, si desea bloquear el acceso SeekportBot por medio de APF, todo lo que tienes que hacer es conectarte al servidor web a través de SSHy agregue la regla de filtro en el archivo de configuración.

1. Abra el archivo de configuración con nano (u otra editorial).

sudo nano /etc/apf/conf.apf

2. Busque la línea que comienza con “IG_TCP_CPORTS” y agregue el agente de usuario que desea bloquear al final de esta línea, seguido de una coma. Por ejemplo, si desea bloquear user agent "SeekportBot", la línea debería verse así:

IG_TCP_CPORTS="80,443,22" && IG_TCP_CPORTS="$IG_TCP_CPORTS,SeekportBot"

3. Guarde el archivo y reinicie el servicio APF.

sudo systemctl restart apf.service

Se bloqueará el acceso a "SeekportBot".

Filtrar web crawls con la ayuda de Cloudflare: bloquee el acceso de SeekportBot

Con la ayuda de Cloudflare, me parece el método más seguro y conveniente mediante el cual puede limitar el acceso de algunos bots a un sitio web de varias maneras. El método que también usé en el caso SeekportBot para filtrar el tráfico a una tienda en línea.

Suponiendo que ya tiene el sitio web agregado a Cloudflare y los servicios de DNS están activados (es decir, el tráfico al sitio web pasa por Cloudflare), siga los pasos a continuación:

1. Abra su cuenta de Clouflare y vaya al sitio web para el que desea limitar el acceso.

2. Ir a: Security → WAF y agregue una nueva regla. Create rule.

3. Elija un nombre para la nueva regla, Field: User AgentOperator: ContainsValue: SeekportBot (u otro nombre de bot) – Choose action: BlockDeploy.

Cómo bloquear el acceso de SeekportBot
Bloquear el acceso a SeekportBot desde Cloudflare

En solo unos segundos, la nueva regla WAF (Web Application Firewall) comienza a hacer efecto.

Eventos de cortafuegos en Cloudflare
Eventos de cortafuegos en Cloudflare

En teoría, la frecuencia con la que una araña web accede a un sitio se puede establecer desde robots.txt, pero... es sólo en teoría.

User-agent: SeekportBot
Crawl-delay: 4

Muchos web crawlerii (excepto Bing y Google) no siguen estas reglas.

En conclusión, si identificas una web crawl quien accede excesivamente a su sitio, lo mejor es bloquear su acceso por completo. Eso sí, si este bot no es de un buscador en el que te interesa estar presente.

Apasionado por la tecnología, escribo con gusto en StealthSettings.com desde el año 2006. Tengo una amplia experiencia en sistemas operativos: macOS, Windows y Linux, así como en lenguajes de programación y plataformas de blogs (WordPress) y para tiendas en línea (WooCommerce, Magento, PrestaShop).

Cómo » Net Surfing » Cómo bloquear el acceso a SeekportBot u otros crawHice clic en un sitio web
Deja un comentario