Robots.txt: Ejemplo de archivo, generadores y TRUCOS para Google

Robots.txt: Ejemplo de archivo, generadores y TRUCOS para Google

Robots.txt, o protocolo de exclusión de robots, es un archivo de texto que sirve para indicar a los buscadores qué contenidos no queremos que rastreen.

Con ello evitamos el rastreo de partes privadas, centrando el crawl budget en las páginas más importantes del site.

El archivo robots.txt es público. Cualquier persona puede acceder a él, por lo que no te empeñes en tratar de ocultar información en este.

Si quieres ver el archivo robots.txt de cualquier web puedes consultarlo desde la raíz del dominio. Para verlo pon: dominio/robots.txt

☝ Antes de seguir: Suscríbete y recibe los próximos artículos sobre SEO y Marketing que publiquemos en tu email.

Desgranando el archivo robots.txt

El robots.txt se suele usar para optimizar el rastreo de los bots sobre las páginas más importantes de una web.

Si ponemos el archivo robots.txt en el dominio actuará sobre toda la web y sus directorios. En cambio, si lo ponemos en el subdominio, solo servirá para los subdirectorios.

En el archivo robots.txt se puede especificar para qué buscador se aplican la directivas: Google, Yandex, Bing… Aunque lo habitual es poner el asterisco (*), para aplicarlo a todos los buscadores compatibles.

Antes se recomendaba bloquear el archivo robots.txt a recursos externos como JavaScript y hojas de estilo. Sin embargo, ahora hay que garantizar que Google y el resto de bots pueden acceder a ellos porque son necesarios para indexar y renderizar el contenido.

Si al leer el archivo robots.txt Google detecta un error 500, el buscador cogerá de referencia la última versión del robots almacenada en la caché como la válida.

En caso de no haber ningún versión anterior, los bots darán por hecho que no hay ninguna restricción.

Te puede interesar: Trucos SEO Rápidos para Optimizar tu Web

Cómo crear el archivo robots.txt

Aquí tú decides. ¿Sabes cómo crear y dónde colocar el archivo en tu web? ¿Quieres la respuesta corta o la larga?

La corta es bien simple: Pon el archivo en el directorio del nivel superior de tu servidor web con el nombre “robots.txt”.

https://agenciaseo.eu/robots.txt

Ahora bien, si te decantas por la larga y quieres saber cómo generar el archivo .txt, va más allá de subir el archivo al directorio raíz de primer nivel del servidor web.

¿Qué elementos forman el robots.txt?

A la hora de generar el archivo robots.txt tienes que tener en cuenta los comandos y las reglas específicas.

Comandos

User agent

Es el comando que sirve para especificar los robots/arañas de los motores de búsqueda que permitimos que rastreen nuestra web.

La sintaxis de este comando es:

User-agent: (nombre del robot)

Existe una base de datos donde están todos los robots web. No obstante, la regla más común es poner un asterisco, que significa que permites a todos los motores de búsqueda rastrear la web.

User-agent: (*)

Disallow

Es el comando que se emplea para indicar a los motores de búsqueda que no accedan, rastreen, ni indexen una parte concreta de la web (una página, un directorio, un subdirectorio…).

Disallow: /wp-admin/

Allow

Es completamente lo contrario al anterior. Con este comando le marcas a los motores de búsqueda qué es lo que tienen que rastrear.

Allow: /wp-admin/admin-ajax.php

Reglas específicas

Tanto en el Disallow como en el Allow, las reglas específicas se aplican al User Agent especificado en la línea previa.

En el archivo robots.txt podrás añadir diferentes Disallow a diferentes User Agent.

Otros elementos a tener en cuenta

  • A la hora de añadir elementos que quieres bloquear deberás colocar la barra inclinada (/), a principio y final.
  • Valora las reglas de concordancia que permiten simplificar el código en el robots.txt
    • *. El asterisco sirve para bloquear una secuencia de caracteres.
    • $. El símbolo de dólar se emplea cuando quieres bloquear URL’s con una terminación concreta.

¿Cuáles son los comandos más utilizados en robots.txt?

  • Excluir todos los robots del servidor

User-agent: *

Disallow: /

  • Permitir que todos los robots tengan acceso

User-agent: *

Disallow:

  • Excluir los robots de parte del servidor

User-agent: *

Disallow: /cgi-bin/

Disallow: /tmp/

Disallow: /junk/

  • Excluir solo un bot

User-agent: BadBot

Disallow: /

  • Permitir solo un bot

User-agent: Google

Disallow:

User-agent: *

Disallow: /

  • Excluir todos los robots menos uno

User-agent: *

Disallow: /~joe/stuff/

  • Excluir un directorio

User-agent: *

Disallow: /nombre-directorio/

  • Excluir un página en concreto

User-agent: *

Disallow: /url-pagina.html

  • Bloquear las imágenes de la web

User-agent: Googlebot-Image

Disallow: /

  • Bloquear una imagen solo

User-agent: Googlebot-Image

Disallow: /imagen/bloqueada.jpeg

  • Excluir un tipo de archivo específico

User-agent: Googlebot

Dissallow: /*.jpeg$

  • Excluir una secuencia de caracteres

User-agent: 

Disallow: /directorio-privado*/

  • Excluir URL’s con una terminación determinada

User-agent: *

Disallow: //pdf$

Solicita presupuesto sin compromiso

Cómo saber si el robots.txt funciona

No olvides comprobar con periodicidad tu archivo de robots.txt desde Search Console y ver que no hay errores. No hacerlo podría suponer que Google no te estuviera indexando contenidos sin tú saberlo.

Para hacer la comprobación, el propio Google Search Console te brinda una herramienta de prueba en la que podrás ver cómo lee el contenido del robots.txt el bot de Google. De esta manera se podrán detectar errores (en el caso de haberlos).

  1. En la versión antigua de Search Console bastaba con ir al panel de control, a la sección de rastreo, y seleccionar la opción de “Probador de robots.txt”. Ahora puedes hacerlo directamente en este link.s
  2. Una vez estés en el probador verás cómo aparece tu archivo robots.txt. Éste podrás editarlo, crear uno nuevo, o copiar y pegar el archivo que quieras probar. Cuando tengas escrito el archivo que quieres probar, elige la URL a comprobar si va a ser bloqueada y el robot con el que quieres analizarla.
  3. El resultado a tu comprobación podrá ser de dos tipos:
  • Permitido → La URL no está bloqueada.
  • Bloqueado → La URL si está bloqueada.

Tener bien configurado el archivo robots.txt no solo es importante para permitir a los motores de búsqueda acceder a los elementos de nuestra web que queramos, sino que también influirá positivamente en el posicionamiento.

¿Quieres conseguir el máximo rendimiento en tu web?

En AgenciaSEO.eu te ayudamos a conseguir tus objetivos.

¡Ponte en contacto con nosotros!

Juan Fran
Content Editor y Link Building Manager en AgenciaSEO.eu | Especialista en creación de contenido optimizado y construcción de enlaces.
Publicado el

Leave a Reply

Your email address will not be published. Required fields are marked *

Acepto la política de privacidad *

Call Now Button
Pide
Presupuesto