Robots.txt: Ejemplo de archivo, generadores y TRUCOS para Google

Robots.txt, o protocolo de exclusión de robots, es un archivo de texto que sirve para indicar a los buscadores qué contenidos no queremos que rastreen.

Con ello evitamos el rastreo de partes privadas, centrando el crawl budget en las páginas más importantes del site.

El archivo robots.txt es público. Cualquier persona puede acceder a él, por lo que no te empeñes en tratar de ocultar información en este.

Si quieres ver el archivo robots.txt de cualquier web puedes consultarlo desde la raíz del dominio. Para verlo pon: dominio/robots.txt

Desgranando el archivo robots.txt

El robots.txt se suele usar para optimizar el rastreo de los bots sobre las páginas más importantes de una web.

Si ponemos el archivo robots.txt en el dominio actuará sobre toda la web y sus directorios. En cambio, si lo ponemos en el subdominio, solo servirá para los subdirectorios.

En el archivo robots.txt se puede especificar para qué buscador se aplican la directivas: Google, Yandex, Bing… Aunque lo habitual es poner el asterisco (*), para aplicarlo a todos los buscadores compatibles.

Antes se recomendaba bloquear el archivo robots.txt a recursos externos como JavaScript y hojas de estilo. Sin embargo, ahora hay que garantizar que Google y el resto de bots pueden acceder a ellos porque son necesarios para indexar y renderizar el contenido.

Si al leer el archivo robots.txt Google detecta un error 500, el buscador cogerá de referencia la última versión del robots almacenada en la caché como la válida.

En caso de no haber ningún versión anterior, los bots darán por hecho que no hay ninguna restricción.

Te puede interesar: Trucos SEO Rápidos para Optimizar tu Web

Cómo crear el archivo robots.txt

Aquí tú decides. ¿Sabes cómo crear y dónde colocar el archivo en tu web? ¿Quieres la respuesta corta o la larga?

La corta es bien simple: Pon el archivo en el directorio del nivel superior de tu servidor web con el nombre “robots.txt”.

https://agenciaseo.eu/robots.txt

Ahora bien, si te decantas por la larga y quieres saber cómo generar el archivo .txt, va más allá de subir el archivo al directorio raíz de primer nivel del servidor web.

¿Qué elementos forman el robots.txt?

A la hora de generar el archivo robots.txt tienes que tener en cuenta los comandos y las reglas específicas.

Comandos

User agent

Es el comando que sirve para especificar los robots/arañas de los motores de búsqueda que permitimos que rastreen nuestra web.

La sintaxis de este comando es:

User-agent: (nombre del robot)

Existe una base de datos donde están todos los robots web. No obstante, la regla más común es poner un asterisco, que significa que permites a todos los motores de búsqueda rastrear la web.

User-agent: (*)

Disallow

Es el comando que se emplea para indicar a los motores de búsqueda que no accedan, rastreen, ni indexen una parte concreta de la web (una página, un directorio, un subdirectorio…).

Disallow: /wp-admin/

Allow

Es completamente lo contrario al anterior. Con este comando le marcas a los motores de búsqueda qué es lo que tienen que rastrear.

Allow: /wp-admin/admin-ajax.php

Reglas específicas

Tanto en el Disallow como en el Allow, las reglas específicas se aplican al User Agent especificado en la línea previa.

En el archivo robots.txt podrás añadir diferentes Disallow a diferentes User Agent.

Otros elementos a tener en cuenta

  • A la hora de añadir elementos que quieres bloquear deberás colocar la barra inclinada (/), a principio y final.
  • Valora las reglas de concordancia que permiten simplificar el código en el robots.txt
    • *. El asterisco sirve para bloquear una secuencia de caracteres.
    • $. El símbolo de dólar se emplea cuando quieres bloquear URL’s con una terminación concreta.

¿Cuáles son los comandos más utilizados en robots.txt?

  • Excluir todos los robots del servidor
User-agent: *    Disallow: /
  • Permitir que todos los robots tengan acceso
User-agent: *    Disallow:
  • Excluir los robots de parte del servidor
User-agent: *    Disallow: /cgi-bin/    Disallow: /tmp/    Disallow: /junk/
  • Excluir solo un bot
User-agent: BadBot    Disallow: /
  • Permitir solo un bot
User-agent: Google    Disallow:    User-agent: *    Disallow: /
  • Excluir todos los robots menos uno
User-agent: *    Disallow: /~joe/stuff/
  • Excluir un directorio
User-agent: *    Disallow: /nombre-directorio/
  • Excluir un página en concreto
User-agent: *    Disallow: /url-pagina.html
  • Bloquear las imágenes de la web
User-agent: Googlebot-Image    Disallow: /
  • Bloquear una imagen solo
User-agent: Googlebot-Image    Disallow: /imagen/bloqueada.jpeg
  • Excluir un tipo de archivo específico
User-agent: Googlebot    Dissallow: /*.jpeg$
  • Excluir una secuencia de caracteres
User-agent:     Disallow: /directorio-privado*/
  • Excluir URL’s con una terminación determinada
User-agent: *    Disallow: //pdf$

Cómo saber si el robots.txt funciona

No olvides comprobar con periodicidad tu archivo de robots.txt desde Search Console y ver que no hay errores. No hacerlo podría suponer que Google no te estuviera indexando contenidos sin tú saberlo.

Para hacer la comprobación, el propio Google Search Console te brinda una herramienta de prueba en la que podrás ver cómo lee el contenido del robots.txt el bot de Google. De esta manera se podrán detectar errores (en el caso de haberlos).

  1. En la versión antigua de Search Console bastaba con ir al panel de control, a la sección de rastreo, y seleccionar la opción de “Probador de robots.txt”. Ahora puedes hacerlo directamente en este link.s
  2. Una vez estés en el probador verás cómo aparece tu archivo robots.txt. Éste podrás editarlo, crear uno nuevo, o copiar y pegar el archivo que quieras probar. Cuando tengas escrito el archivo que quieres probar, elige la URL a comprobar si va a ser bloqueada y el robot con el que quieres analizarla.
  3. El resultado a tu comprobación podrá ser de dos tipos:
  • Permitido → La URL no está bloqueada.
  • Bloqueado → La URL si está bloqueada.

Tener bien configurado el archivo robots.txt no solo es importante para permitir a los motores de búsqueda acceder a los elementos de nuestra web que queramos, sino que también influirá positivamente en el posicionamiento.

¿Quieres conseguir el máximo rendimiento en tu web?

En AgenciaSEO.eu te ayudamos a conseguir tus objetivos.

¡Ponte en contacto con nosotros!

Escrito por:

Juan Fran

Juan Fran

Director de contenidos en agenciaSEO.eu. Graduado en periodismo por la Universidad Jaume I y máster en Comunicación y Branding Digital en Universidad CEU Cardenal Herrera.
Juan Fran

Juan Fran

Director de contenidos en agenciaSEO.eu. Graduado en periodismo por la Universidad Jaume I y máster en Comunicación y Branding Digital en Universidad CEU Cardenal Herrera.
¿Que necesitas saber?

3 comentarios

  1. Juan Fran

    Jose Antonio

    Buenas tardes,

    Gracias por el artículo, me está ayudando mucho a comprender como funciona esto del archivo robots. Me queda una duda, si por ejemplo solo quiero dar acceso a los robosts de google (Googlebot + AdsBot-Google + Googlebot-Image) y negar el acceso a cualquier otro rastreador ¿Qué comando o conjunto de comandos tendría que usar?

    Saludos!

    • Juan Fran

      Bruno Ramos

      Gracias Jose Antonio, nos alegra que te haya servido el post.

      Para bloquear robots concretos, debes especificar primero su nombre y, a continuación, los directorios que quieres impedir que rastreen, ejemplo:

      User-agent: Googlebot
      Disallow: /carpeta-a-bloquear/

      Saludos!

  2. Juan Fran

    Jose Antonio

    Muchas gracias Bruno por tu rápida respuesta. El problema que veo es que no conozco el nombre de todos los rastreadores, por ello me preguntaba si era posible bloquearlos a todos de forma generalizada (exceptuando los de google). Saludos!

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Descarga nuestro EBook gratuito

GUÍA SOBRE SEO PROFESIONAL

Un caso práctico para enseñarte cómo mejorar tu posicionamiento web