Robots.txt: Ejemplo de archivo, generadores y TRUCOS para Google

Felipe López

diciembre 11, 2025

El famoso robots.txt es uno de esos archivos pequeños pero decisivos en cualquier estrategia de SEO técnico. Marca, literalmente, el camino que deben seguir los buscadores cuando llegan a tu web: qué pueden rastrear, qué deben evitar y dónde no merece la pena invertir tiempo.

Aunque suele quedarse en un segundo plano, su configuración puede ser la diferencia entre un rastreo eficiente… o un caos absoluto.

En esta guía te vamos a explicar qué es, cómo funciona, para qué sirve y cómo crear un robots.txt realmente optimizado. Verás ejemplos reales, entenderás sus comandos, descubrirás los errores más comunes y aprenderás a gestionarlo como un profesional.

Índice

1 Qué es Robots.txt y por qué es tan importante
2 Dónde colocar el archivo Robots.txt
3 El papel de Google Robots.txt en el proceso de rastreo
4 Cómo crear un archivo Robots.txt paso a paso
5 Elementos que componen un Robots.txt
6 ¿Cuáles son los comandos más utilizados en robots.txt?
7 Cómo comprobar si tu robots.txt funciona correctamente
8 Cómo añadir el Sitemap en el archivo robots.txt
9 Robots.txt y LLMs: cómo afecta el archivo al rastreo por IA
10 Mejores prácticas de SEO para optimizar el Robots.txt
11 La importancia de un buen Robots.txt en el SEO

Qué es Robots.txt y por qué es tan importante

Entender qué es robots txt es una de las claves del SEO técnico. El Robots.txt, conocido también como protocolo de exclusión de robots, es un archivo de texto ubicado en el directorio raíz de un sitio web que indica a los motores de búsqueda qué secciones pueden rastrear y cuáles no.

Los bots de buscadores como Google, Bing o Yandex consultan este archivo antes de iniciar el rastreo. Por eso, muchos especialistas hablan de robots txt como una parte esencial dentro del proceso de indexación.

Su función principal es:

Optimizar el presupuesto de rastreo (crawl budget)
Evitar que Google rastree contenidos duplicados o irrelevantes
Impedir que los bots accedan a áreas privadas del sitio
Facilitar la lectura y renderización del contenido

Un punto clave es que el archivo robots txt es público. Cualquier persona puede acceder a él simplemente escribiendo:

dominio.com/robots.txt

Por ese motivo, no debemos intentar ocultar información sensible dentro del robots.txt, ya que estaríamos exponiéndola innecesariamente.

Dónde colocar el archivo Robots.txt

Para saber cómo crear un archivo robots txt, lo primero es entender dónde debe ubicarse. El archivo debe colocarse en la raíz del dominio, no dentro de carpetas ni subdirectorios.

Ejemplo correcto:

https://tudominio.com/robots.txt

Ejemplo incorrecto:

https://tudominio.com/seo/robots.txt

Si el archivo se coloca en un subdominio, las reglas afectarán únicamente a ese subdominio.

Ejemplo:

blog.tudominio.com/robots.txt

En este caso, las directrices no se aplican al dominio principal.

El papel de Google Robots.txt en el proceso de rastreo

La relación entre Google y robots txt es crucial. Google es el motor de búsqueda más utilizado y sus bots son los que más impacto tienen en la visibilidad web.
Google utiliza el archivo robots.txt para determinar:

Qué URLs puede visitar
Qué áreas debe evitar
Qué recursos (JS, CSS, imágenes) necesita para renderizar bien las páginas

Antes se solía bloquear recursos como JavaScript o CSS, pero ahora se considera una mala práctica, ya que Google necesita acceder a ellos para entender el contenido completo de una página.

Otro punto importante:

Si Google detecta un error 500 al intentar leer el robots.txt:

Tomará la última versión válida almacenada en caché
Si no existe una versión previa, asumirá que no hay restricciones

Esto significa que un error en tu archivo robots txt podría provocar que Google rastree áreas que no quieres.

Cómo crear un archivo Robots.txt paso a paso

Crear un archivo robots.txt es sencillo. La respuesta corta es:

Crea un archivo de texto llamado robots.txt
Colócalo en el directorio raíz del servidor

Pero si quieres una explicación más detallada, te comento los elementos fundamentales.

Elementos que componen un Robots.txt

Dentro del archivo robots txt, encontramos comandos que definen qué agentes pueden rastrear el sitio y qué áreas deben evitar.

1. User agent

Es el comando que sirve para especificar los robots/arañas de los motores de búsqueda que permitimos que rastreen nuestra web.

La sintaxis de este comando es:

User-agent: (nombre del robot)

Existe una base de datos donde están todos los robots web. No obstante, la regla más común es poner un asterisco, que significa que permites a todos los motores de búsqueda rastrear la web.

User-agent: (*)

2. Disallow

Es el comando que se emplea para indicar a los motores de búsqueda que no accedan, rastreen, ni indexen una parte concreta de la web (una página, un directorio, un subdirectorio…).

Disallow: /wp-admin/

También se puede bloquear:

Directorios completos
Archivos individuales
Extensiones específicas
Cadenas de texto en URLs

➡️ Te puede interesar→ Disallow: En qué consiste y cómo implementarlo en tu sitio web.

3. Allow

Es lo contrario a Disallow: permite el acceso a determinadas partes.

Allow: /wp-admin/admin-ajax.php

4. Reglas específicas

Los elementos como:

El asterisco (*)
El símbolo dólar ($)

Permiten crear reglas más avanzadas.

Ejemplo:

User-agent: Googlebot    Dissallow: /*.jpeg$

Bloquea todas las URLs que terminen en .jpeg.

Otros elementos a tener en cuenta

A la hora de añadir elementos que quieres bloquear deberás colocar la barra inclinada (/), a principio y final.
Valora las reglas de concordancia que permiten simplificar el código en el robots.txt
- *. El asterisco sirve para bloquear una secuencia de caracteres.
- $. El símbolo de dólar se emplea cuando quieres bloquear URL’s con una terminación concreta.

¿Cuáles son los comandos más utilizados en robots.txt?

Aquí tienes varios casos prácticos según los objetivos:

Bloquear todo el sitio

User-agent: *    Disallow: /

Permitir que todos los robots tengan acceso

User-agent: *    Disallow:

Excluir los robots de parte del servidor

User-agent: *    Disallow: /cgi-bin/    Disallow: /tmp/    Disallow: /junk/

Excluir solo un bot

User-agent: BadBot    Disallow: /

Permitir solo un bot

User-agent: Google    Disallow:    User-agent: *    Disallow: /

Excluir todos los robots menos uno

User-agent: *    Disallow: /~joe/stuff/

Excluir un directorio

User-agent: *    Disallow: /nombre-directorio/

Excluir un página en concreto

User-agent: *    Disallow: /url-pagina.html

Bloquear las imágenes de la web

User-agent: Googlebot-Image    Disallow: /

Bloquear una imagen solo

User-agent: Googlebot-Image    Disallow: /imagen/bloqueada.jpeg

Excluir un tipo de archivo específico

User-agent: Googlebot    Dissallow: /*.jpeg$

Excluir una secuencia de caracteres

User-agent:     Disallow: /directorio-privado*/

Excluir URL’s con una terminación determinada

User-agent: *    Disallow: //pdf$

Cómo comprobar si tu robots.txt funciona correctamente

Google ofrece en Search Console una herramienta para analizar cómo interpreta tu archivo robots txt. Con ella podrás editar el archivo y verificar si:

Las reglas están bien implementadas
Una URL está bloqueada o permitida
Existen errores de sintaxis

Los dos estados posibles son:

Permitido→ Google puede rastrear la URL
Bloqueado→ La URL está restringida

Revisar el robots.txt de forma periódica es esencial para evitar problemas de indexación y mejorar tu posicionamiento web.

Cómo añadir el Sitemap en el archivo robots.txt

Además de controlar qué partes de la web pueden rastrear los bots, el archivo robots.txt también permite indicar la ubicación del Sitemap, algo fundamental para que Google y otros buscadores encuentren rápidamente las páginas más importantes del sitio.

Aunque no es obligatorio, incluirlo aquí es una buena práctica recomendada, sobre todo en webs grandes donde optimizar el crawl budget marca la diferencia.

La implementación es sencilla: solo debes añadir la URL completa del Sitemap, por ejemplo:

Sitemap: https://www.tudominio.com/sitemap.xml

Y si tu proyecto utiliza varios Sitemaps o un índice, puedes incluir tantas líneas como necesites.

✍ Si quieres profundizar en cómo funcionan, cómo crearlos y cómo optimizarlos, te puede interesar: Sitemap XML: Qué es, Cómo crearlo y Generarlo.

Robots.txt y LLMs: cómo afecta el archivo al rastreo por IA

En los últimos años, el archivo robots.txt ha convivido con un nuevo protagonista: el llms.txt. Aunque cada uno cumple funciones distintas, su relación es cada vez más relevante dentro del SEO técnico.

Mientras que el robots.txt controla el comportamiento de los bots de búsqueda tradicionales, Googlebot, Bingbot, Yandex…, el llms.txt está pensado para guiar el acceso de los rastreadores de inteligencia artificial. Es decir: el primero gestiona el rastreo clásico, el segundo regula cómo las IA pueden acceder y reutilizar tu contenido.

La clave está en que los LLM no dependen del robots.txt. Incluso si bloqueas una carpeta a Google, un modelo de IA podría seguir utilizando tu contenido si no has configurado el llms.txt. Por eso ambos archivos se complementan y son fundamentales.

Si buscas proteger su contenido y asegurarte de que se emplea de forma adecuada, la recomendación actual es clara: configurar ambos archivos y mantenerlos actualizados.

➡️ Te puede interesar→ LLMO: Lo que sabemos que funciona para la optimización para resultados generados por IA

Mejores prácticas de SEO para optimizar el Robots.txt

Para resumir, si quieres que Google robots txt funcione correctamente, debes aplicar estas recomendaciones:

Mantén el archivo limpio y ordenado
Evita bloqueos innecesarios
No uses robots.txt para ocultar información sensible
Permite el acceso a JS y CSS
Añade el sitemap al final del archivo
Comprueba los errores en Search Console
Combinarlo con el llms.txt

La importancia de un buen Robots.txt en el SEO

Tener un archivo robots txt bien configurado es esencial para maximizar el rendimiento de tu web. Un robots.txt mal implementado puede impedir que Google acceda a contenido clave o, peor aún, permitir el rastreo de secciones que no deberían ser públicas.

Ahora que ya sabes qué es robots txt, cómo funciona, has visto un ejemplo de robots txt real y entiendes cómo crear un archivo robots txt correctamente, estás preparado para gestionarlo como un experto.

Si quieres mejorar aún más la salud SEO de tu sitio web, en agenciaSEO.eu podemos ayudarte a impulsar tu proyecto con estrategias avanzadas.

¡Ponte en contacto con nosotros!

4 comentarios

Escrito por:

Felipe López

SEO Consultant en agenciaseo.eu. Graduado en Información y Documentación con Máster en Gestión de la Información en la Universidad Politécnica de Valencia. Me entretengo optimizando páginas web. Profesionalidad y cercanía como pilares principales.

¿Que necesitas saber?

4 comentarios

Jose Antonio

14 de julio de 2023 / 12:32 Responder

Buenas tardes,

Gracias por el artículo, me está ayudando mucho a comprender como funciona esto del archivo robots. Me queda una duda, si por ejemplo solo quiero dar acceso a los robosts de google (Googlebot + AdsBot-Google + Googlebot-Image) y negar el acceso a cualquier otro rastreador ¿Qué comando o conjunto de comandos tendría que usar?

Saludos!
- Bruno Ramos
  
  17 de julio de 2023 / 09:44 Responder
  
  Gracias Jose Antonio, nos alegra que te haya servido el post.
  
  Para bloquear robots concretos, debes especificar primero su nombre y, a continuación, los directorios que quieres impedir que rastreen, ejemplo:
  
  User-agent: Googlebot
  Disallow: /carpeta-a-bloquear/
  
  Saludos!
Jose Antonio

20 de julio de 2023 / 10:11 Responder

Muchas gracias Bruno por tu rápida respuesta. El problema que veo es que no conozco el nombre de todos los rastreadores, por ello me preguntaba si era posible bloquearlos a todos de forma generalizada (exceptuando los de google). Saludos!
- Bruno Ramos
  
  7 de enero de 2026 / 13:32 Responder
  
  Hola Jose Antonio, mis disculpas, se me pasó responderte a esta duda.
  
  No es posible, necesitas conocer los nombres de los rastreadores. Puedes hacerlo revisando los logs del servidor.
  
  De todas formas, salvo en casos muy raros, no necesitas dedicar demasiado tiempo a esto, ya que un error puede provocar que dejes de ser rastreado por otros motores que, aunque envíen poco tráfico por ahora, sí que sean muy relevantes (por ejemplo los motores generativos con IA).
  
  Saludos!