
Robots.txt, o protocolo de exclusión de robots, es un archivo de texto que sirve para indicar a los buscadores qué contenidos no queremos que rastreen.
Con ello evitamos el rastreo de partes privadas, centrando el crawl budget en las páginas más importantes del site.
☝ Antes de seguir: Suscríbete y recibe los próximos artículos sobre SEO y Marketing que publiquemos en tu email.
El archivo robots.txt es público. Cualquier persona puede acceder a él, por lo que no te empeñes en tratar de ocultar información en este.
Si quieres ver el archivo robots.txt de cualquier web puedes consultarlo desde la raíz del dominio. Para verlo pon: dominio/robots.txt
Configurar el Robots.txt
El robots.txt se suele usar para optimizar el rastreo de los bots sobre las páginas más importantes de una web.
Si ponemos el archivo robots.txt en el dominio actuará sobre toda la web y sus directorios. En cambio, si lo ponemos en el subdominio, solo servirá para los subdirectorios.
En el archivo robots.txt se puede especificar para qué buscador se aplican la directivas: Google, Yandex, Bing… Aunque lo habitual es poner el asterisco (*), para aplicarlo a todos los buscadores compatibles.
Antes se recomendaba bloquear el archivo robots.txt a recursos externos como JavaScript y hojas de estilo. Sin embargo, ahora hay que garantizar que Google y el resto de bots pueden acceder a ellos porque son necesarios para indexar y renderizar el contenido.
Si al leer el archivo robots.txt Google detecta un error 500, el buscador cogerá de referencia la última versión del robots almacenada en la caché como la válida.
En caso de no haber ningún versión anterior, los bots darán por hecho que no hay ninguna restricción.
Te puede interesar: Trucos SEO Rápidos para Optimizar tu Web
Aquí tú decides. ¿Sabes cómo crear y dónde colocar el archivo en tu web? ¿Quieres la respuesta corta o la larga?
La corta es bien simple: Pon el archivo en el directorio del nivel superior de tu servidor web con el nombre “robots.txt”.
https://agenciaseo.eu/robots.txt
Ahora bien, si te decantas por la larga y quieres saber cómo generar el archivo .txt, va más allá de subir el archivo al directorio raíz de primer nivel del servidor web.
A la hora de generar el archivo robots.txt tienes que tener en cuenta los comandos y las reglas específicas.
Es el comando que sirve para especificar los robots/arañas de los motores de búsqueda que permitimos que rastreen nuestra web.
La sintaxis de este comando es:
User-agent: (nombre del robot)
Existe una base de datos donde están todos los robots web. No obstante, la regla más común es poner un asterisco, que significa que permites a todos los motores de búsqueda rastrear la web.
User-agent: (*)
Es el comando que se emplea para indicar a los motores de búsqueda que no accedan, rastreen, ni indexen una parte concreta de la web (una página, un directorio, un subdirectorio…).
Disallow: /wp-admin/
Es completamente lo contrario al anterior. Con este comando le marcas a los motores de búsqueda qué es lo que tienen que rastrear.
Allow: /wp-admin/admin-ajax.php
Tanto en el Disallow como en el Allow, las reglas específicas se aplican al User Agent especificado en la línea previa.
En el archivo robots.txt podrás añadir diferentes Disallow a diferentes User Agent.
User-agent: *
Disallow: /
User-agent: *
Disallow:
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /junk/
User-agent: BadBot
Disallow: /
User-agent: Google
Disallow:
User-agent: *
Disallow: /
User-agent: *
Disallow: /~joe/stuff/
User-agent: *
Disallow: /nombre-directorio/
User-agent: *
Disallow: /url-pagina.html
User-agent: Googlebot-Image
Disallow: /
User-agent: Googlebot-Image
Disallow: /imagen/bloqueada.jpeg
User-agent: Googlebot
Dissallow: /*.jpeg$
User-agent:
Disallow: /directorio-privado*/
User-agent: *
Disallow: //pdf$
No olvides comprobar con periodicidad tu archivo de robots.txt desde Search Console y ver que no hay errores. No hacerlo podría suponer que Google no te estuviera indexando contenidos sin tú saberlo.
Para hacer la comprobación, el propio Google Search Console te brinda una herramienta de prueba en la que podrás ver cómo lee el contenido del robots.txt el bot de Google. De esta manera se podrán detectar errores (en el caso de haberlos).
Tener bien configurado el archivo robots.txt no solo es importante para permitir a los motores de búsqueda acceder a los elementos de nuestra web que queramos, sino que también influirá positivamente en el posicionamiento.
¿Quieres conseguir el máximo rendimiento en tu web?
En AgenciaSEO.eu te ayudamos a conseguir tus objetivos.
¡Ponte en contacto con nosotros!
Agencia SEO » Visitas » Robots.txt: Ejemplo de archivo, generadores y TRUCOS para Google