Robots.txt: Ejemplo de archivo, generadores y TRUCOS para Google

El famoso robots.txt es uno de esos archivos pequeños pero decisivos en cualquier estrategia de SEO técnico. Marca, literalmente, el camino que deben seguir los buscadores cuando llegan a tu web: qué pueden rastrear, qué deben evitar y dónde no merece la pena invertir tiempo.

Aunque suele quedarse en un segundo plano, su configuración puede ser la diferencia entre un rastreo eficiente… o un caos absoluto.

En esta guía te vamos a explicar qué es, cómo funciona, para qué sirve y cómo crear un robots.txt realmente optimizado. Verás ejemplos reales, entenderás sus comandos, descubrirás los errores más comunes y aprenderás a gestionarlo como un profesional.

Qué es Robots.txt y por qué es tan importante

Entender qué es robots txt es una de las claves del SEO técnico. El Robots.txt, conocido también como protocolo de exclusión de robots, es un archivo de texto ubicado en el directorio raíz de un sitio web que indica a los motores de búsqueda qué secciones pueden rastrear y cuáles no.

Los bots de buscadores como Google, Bing o Yandex consultan este archivo antes de iniciar el rastreo. Por eso, muchos especialistas hablan de robots txt como una parte esencial dentro del proceso de indexación.

Su función principal es:

  • Optimizar el presupuesto de rastreo (crawl budget)
  • Evitar que Google rastree contenidos duplicados o irrelevantes
  • Impedir que los bots accedan a áreas privadas del sitio
  • Facilitar la lectura y renderización del contenido

Un punto clave es que el archivo robots txt es público. Cualquier persona puede acceder a él simplemente escribiendo:

dominio.com/robots.txt

Por ese motivo, no debemos intentar ocultar información sensible dentro del robots.txt, ya que estaríamos exponiéndola innecesariamente.

Dónde colocar el archivo Robots.txt

Para saber cómo crear un archivo robots txt, lo primero es entender dónde debe ubicarse. El archivo debe colocarse en la raíz del dominio, no dentro de carpetas ni subdirectorios.

Ejemplo correcto:

https://tudominio.com/robots.txt

Ejemplo incorrecto:

https://tudominio.com/seo/robots.txt

Si el archivo se coloca en un subdominio, las reglas afectarán únicamente a ese subdominio.

Ejemplo:

blog.tudominio.com/robots.txt

En este caso, las directrices no se aplican al dominio principal.

El papel de Google Robots.txt en el proceso de rastreo

La relación entre Google y robots txt es crucial. Google es el motor de búsqueda más utilizado y sus bots son los que más impacto tienen en la visibilidad web.
Google utiliza el archivo robots.txt para determinar:

  • Qué URLs puede visitar
  • Qué áreas debe evitar
  • Qué recursos (JS, CSS, imágenes) necesita para renderizar bien las páginas

Antes se solía bloquear recursos como JavaScript o CSS, pero ahora se considera una mala práctica, ya que Google necesita acceder a ellos para entender el contenido completo de una página.

Otro punto importante:

Si Google detecta un error 500 al intentar leer el robots.txt:

  1. Tomará la última versión válida almacenada en caché
  2. Si no existe una versión previa, asumirá que no hay restricciones

Esto significa que un error en tu archivo robots txt podría provocar que Google rastree áreas que no quieres.

Cómo crear un archivo Robots.txt paso a paso

Crear un archivo robots.txt es sencillo. La respuesta corta es:

  • Crea un archivo de texto llamado robots.txt
  • Colócalo en el directorio raíz del servidor

Pero si quieres una explicación más detallada, te comento los elementos fundamentales.

Elementos que componen un Robots.txt

Dentro del archivo robots txt, encontramos comandos que definen qué agentes pueden rastrear el sitio y qué áreas deben evitar.

1. User agent

Es el comando que sirve para especificar los robots/arañas de los motores de búsqueda que permitimos que rastreen nuestra web.

La sintaxis de este comando es:

User-agent: (nombre del robot)

Existe una base de datos donde están todos los robots web. No obstante, la regla más común es poner un asterisco, que significa que permites a todos los motores de búsqueda rastrear la web.

User-agent: (*)

2. Disallow

Es el comando que se emplea para indicar a los motores de búsqueda que no accedan, rastreen, ni indexen una parte concreta de la web (una página, un directorio, un subdirectorio…).

Disallow: /wp-admin/

También se puede bloquear:

  • Directorios completos
  • Archivos individuales
  • Extensiones específicas
  • Cadenas de texto en URLs

➡️ Te puede interesar→ Disallow: En qué consiste y cómo implementarlo en tu sitio web.

3. Allow

Es lo contrario a Disallow: permite el acceso a determinadas partes.

Allow: /wp-admin/admin-ajax.php

4. Reglas específicas

Los elementos como:

  • El asterisco (*)
  • El símbolo dólar ($)

Permiten crear reglas más avanzadas.

Ejemplo:

User-agent: Googlebot    Dissallow: /*.jpeg$

Bloquea todas las URLs que terminen en .jpeg.

Otros elementos a tener en cuenta

  • A la hora de añadir elementos que quieres bloquear deberás colocar la barra inclinada (/), a principio y final.
  • Valora las reglas de concordancia que permiten simplificar el código en el robots.txt
    • *. El asterisco sirve para bloquear una secuencia de caracteres.
    • $. El símbolo de dólar se emplea cuando quieres bloquear URL’s con una terminación concreta.

¿Cuáles son los comandos más utilizados en robots.txt?

Aquí tienes varios casos prácticos según los objetivos:

  • Bloquear todo el sitio
User-agent: *    Disallow: /
  • Permitir que todos los robots tengan acceso
User-agent: *    Disallow:
  • Excluir los robots de parte del servidor
User-agent: *    Disallow: /cgi-bin/    Disallow: /tmp/    Disallow: /junk/
  • Excluir solo un bot
User-agent: BadBot    Disallow: /
  • Permitir solo un bot
User-agent: Google    Disallow:    User-agent: *    Disallow: /
  • Excluir todos los robots menos uno
User-agent: *    Disallow: /~joe/stuff/
  • Excluir un directorio
User-agent: *    Disallow: /nombre-directorio/
  • Excluir un página en concreto
User-agent: *    Disallow: /url-pagina.html
  • Bloquear las imágenes de la web
User-agent: Googlebot-Image    Disallow: /
  • Bloquear una imagen solo
User-agent: Googlebot-Image    Disallow: /imagen/bloqueada.jpeg
  • Excluir un tipo de archivo específico
User-agent: Googlebot    Dissallow: /*.jpeg$
  • Excluir una secuencia de caracteres
User-agent:     Disallow: /directorio-privado*/
  • Excluir URL’s con una terminación determinada
User-agent: *    Disallow: //pdf$

Cómo comprobar si tu robots.txt funciona correctamente

Google ofrece en Search Console una herramienta para analizar cómo interpreta tu archivo robots txt. Con ella podrás editar el archivo y verificar si:

  • Las reglas están bien implementadas
  • Una URL está bloqueada o permitida
  • Existen errores de sintaxis

Los dos estados posibles son:

  • Permitido→ Google puede rastrear la URL
  • Bloqueado→ La URL está restringida

Revisar el robots.txt de forma periódica es esencial para evitar problemas de indexación y mejorar tu posicionamiento web.

Cómo añadir el Sitemap en el archivo robots.txt

Además de controlar qué partes de la web pueden rastrear los bots, el archivo robots.txt también permite indicar la ubicación del Sitemap, algo fundamental para que Google y otros buscadores encuentren rápidamente las páginas más importantes del sitio.

Aunque no es obligatorio, incluirlo aquí es una buena práctica recomendada, sobre todo en webs grandes donde optimizar el crawl budget marca la diferencia.

La implementación es sencilla: solo debes añadir la URL completa del Sitemap, por ejemplo:

Sitemap: https://www.tudominio.com/sitemap.xml

Y si tu proyecto utiliza varios Sitemaps o un índice, puedes incluir tantas líneas como necesites.

✍ Si quieres profundizar en cómo funcionan, cómo crearlos y cómo optimizarlos, te puede interesar: Sitemap XML: Qué es, Cómo crearlo y Generarlo.

Robots.txt y LLMs: cómo afecta el archivo al rastreo por IA

En los últimos años, el archivo robots.txt ha convivido con un nuevo protagonista: el llms.txt. Aunque cada uno cumple funciones distintas, su relación es cada vez más relevante dentro del SEO técnico.

Mientras que el robots.txt controla el comportamiento de los bots de búsqueda tradicionales, Googlebot, Bingbot, Yandex…, el llms.txt está pensado para guiar el acceso de los rastreadores de inteligencia artificial. Es decir: el primero gestiona el rastreo clásico, el segundo regula cómo las IA pueden acceder y reutilizar tu contenido.

La clave está en que los LLM no dependen del robots.txt. Incluso si bloqueas una carpeta a Google, un modelo de IA podría seguir utilizando tu contenido si no has configurado el llms.txt. Por eso ambos archivos se complementan y son fundamentales.

Si buscas proteger su contenido y asegurarte de que se emplea de forma adecuada, la recomendación actual es clara: configurar ambos archivos y mantenerlos actualizados.

➡️ Te puede interesar→ LLMO: Lo que sabemos que funciona para la optimización para resultados generados por IA

Mejores prácticas de SEO para optimizar el Robots.txt

Para resumir, si quieres que Google robots txt funcione correctamente, debes aplicar estas recomendaciones:

  • Mantén el archivo limpio y ordenado
  • Evita bloqueos innecesarios
  • No uses robots.txt para ocultar información sensible
  • Permite el acceso a JS y CSS
  • Añade el sitemap al final del archivo
  • Comprueba los errores en Search Console
  • Combinarlo con el llms.txt

La importancia de un buen Robots.txt en el SEO

Tener un archivo robots txt bien configurado es esencial para maximizar el rendimiento de tu web. Un robots.txt mal implementado puede impedir que Google acceda a contenido clave o, peor aún, permitir el rastreo de secciones que no deberían ser públicas.

Ahora que ya sabes qué es robots txt, cómo funciona, has visto un ejemplo de robots txt real y entiendes cómo crear un archivo robots txt correctamente, estás preparado para gestionarlo como un experto.

Si quieres mejorar aún más la salud SEO de tu sitio web, en agenciaSEO.eu podemos ayudarte a impulsar tu proyecto con estrategias avanzadas.

¡Ponte en contacto con nosotros!

Escrito por:

¿Que necesitas saber?
Buscar

3 comentarios

  1. Jose Antonio

    Jose Antonio

    Buenas tardes,

    Gracias por el artículo, me está ayudando mucho a comprender como funciona esto del archivo robots. Me queda una duda, si por ejemplo solo quiero dar acceso a los robosts de google (Googlebot + AdsBot-Google + Googlebot-Image) y negar el acceso a cualquier otro rastreador ¿Qué comando o conjunto de comandos tendría que usar?

    Saludos!

    • Bruno Ramos

      Bruno Ramos

      Gracias Jose Antonio, nos alegra que te haya servido el post.

      Para bloquear robots concretos, debes especificar primero su nombre y, a continuación, los directorios que quieres impedir que rastreen, ejemplo:

      User-agent: Googlebot
      Disallow: /carpeta-a-bloquear/

      Saludos!

  2. Jose Antonio

    Jose Antonio

    Muchas gracias Bruno por tu rápida respuesta. El problema que veo es que no conozco el nombre de todos los rastreadores, por ello me preguntaba si era posible bloquearlos a todos de forma generalizada (exceptuando los de google). Saludos!

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Descarga nuestro EBook gratuito

GUÍA SOBRE SEO PROFESIONAL

Un caso práctico para enseñarte cómo mejorar tu posicionamiento web