Indexación en Google: qué es y cómo hacerlo

Cuando trabajamos con páginas web debemos tener en cuenta ciertos aspectos importantes; al optimizar o crear sitios web, lo estamos haciendo con el objetivo de que lo vean dos actores: el usuario y el motor de búsqueda, no debemos obviar ninguno de los dos, ya que influyen directamente en el posicionamiento de nuestras páginas y en nuestro negocio.

En este artículo trataremos el concepto de indexación en Google, por lo que nos centraremos en el motor de búsqueda como actor principal: cómo ve Google nuestro sitio web para indexarlo y clasificarlo posteriormente.

¿Qué es la indexación en Google?

La indexación en Google puede definirse como la inclusión de los datos de nuestra página web en el índice (base de datos) de Google, siendo así visible en los resultados de búsqueda de dicho motor; es decir, si una página no está indexada, no aparecerá en los resultados del buscador.

El concepto “indexabilidad” se refiere a la facilidad de acceso a los contenidos de un sitio web por parte de los robots de búsqueda o “web crawlers”.

En una fase previa a la indexación, sucede la fase de rastreo o “crawling”, mediante la cual los buscadores, a través de robots o “arañas”, recorren los sitios web con el objetivo de descubrir y rastrear la mayor cantidad de contenido posible. En el caso de Google, este rastreador se denomina GoogleBot. A continuación se definen las “etapas” por las que pasa Google para acabar mostrando una página web en sus resultados de búsqueda:

Fase de rastreo o “crawling”

La forma de trabajo de estos robots se basa en la utilización de enlaces para descubrir nuevos sitios web. Al encontrar una página, utilizarán los enlaces de esta para encontrar otras, y así sucesivamente.

En el caso de que no queramos que se rastree alguna página concreta de nuestro sitio web, debemos indicarlo expresamente a los robots. Esto es a través del modificado de un archivo denominado robots.txt, añadiendo instrucciones específicas y definiendo las secciones de nuestro sitio que no queremos que sean rastreadas.

Cuando estos robots descubren una nueva página, esta queda almacenada en la memoria temporal del buscador, la llamada memoria caché. Cuando se rastrea una página se identifica en el archivo del buscador mediante su URL.

Además del rastreo mediante seguimiento de enlaces, existe otra forma de rastreo; se trata del empleo de sitemaps proporcionados por los gestores de sitios web.

Los sitemaps son archivos XML en los que incluimos las páginas que queremos que los robots indexen; estos informan al buscador de las páginas del sitio y de sus actualizaciones sin necesidad de esperar a que las rastreen. Podemos indicarle a Google qué páginas no queremos que rastree mediante el archivo robots.txt, como hemos indicado anteriormente.

Ejemplo sitemap Google

Es importante apuntar que los robots no actualizan todas las páginas con la misma frecuencia; si tenemos un blog cuyo periodo de actualización es corto, los buscadores se encargarán de visitarlo más a menudo.

En cambio, si un sitio web está descuidado y algunos enlaces están rotos o existe contenido duplicado, las arañas, a su paso con el objetivo de actualizar el contenido, desperdiciarán un tiempo que el buscador podría dedicar a otra página; cuanto menos tiempo tarde en rastrear o actualizar cada página, más páginas de un sitio rastreará. Google asigna a sus rastreadores un tiempo determinado para recorrer cada sitio web, este tiempo se denomina crawl budget.

Fase de indexación

Tras la fase de rastreo, se inicia la fase de indexación, la cual se refiere al momento en el que los buscadores añaden todas las páginas que han sido descubiertas de un determinado sitio a su índice, para posteriormente clasificarlas.

Normalmente, los robots añadirán todas las páginas descubiertas al índice, y estas serán clasificadas en función de su contenido; pero hay algunos casos en los que el buscador puede decidir no indexar una página que sí rastreó. Esto sucede cuando se encuentran páginas con etiquetas canonical no autorreferenciadas o con contenido no relevante.

Para estar al tanto de la situación de nuestro sitio, es necesario saber el número de páginas totales que tenemos, para así poder comparar el número de páginas totales con el número de páginas indexadas.

Podemos indicarle a Google qué páginas queremos que no indexe mediante la metaetiqueta robots. No hay que confundirla con el archivo robots.txt; con la metaetiqueta robots noindex, Google sí rastrea y descubre nuestras páginas, pero no las indexa ni las clasifica en páginas de resultados.

Hay ocasiones en las que se desea desindexar una página y se incluye primero en el archivo robots.txt con un disallow para que Google no pueda acceder a ella, y luego se introduce la metaetiqueta noindex para que Google no la indexe. Pues bien, en estos casos la página seguirá indexada, ya que al no permitir a Google que acceda a ella, no podrá leer esta etiqueta noindex, y seguirá tratando dicha página como si no la tuviera.

Fase de posicionamiento o “clasificación”

Una vez los crawlers han rastreado el sitio web, los buscadores proceden a analizar todos los contenidos encontrados para clasificarlos en categorías de búsquedas relacionadas.

Cuando un rastreador descubre un nuevo contenido, debe decidir si se añade a algún índice de contenido similar, y en caso positivo, en qué orden debería aparecer en este.

Los buscadores analizan todo el texto de la página para establecerla en una categoría, fijándose especialmente en las palabras y frases que estén contenidas en los títulos o encabezados (h1, h2…). A estos lugares los denominamos áreas prominentes, ya que las palabras encontradas en ellas “pesan” más en la clasificación y ordenación de la página.

Esta fase de clasificación también contempla la inserción de dicha página previamente indexada en las páginas de resultados de Google, pudiendo obtener mejor o peor clasificación en función de los llamados factores de posicionamiento SEO.

En referencia a esto, es conveniente saber que porque una página esté indexada no significa que esté optimizada a nivel SEO. Para que eso ocurra se deben cumplir otros factores de posicionamiento como el contenido enfocado a palabras clave, arquitectura del sitio web, datos estructurados, etc.

Cómo indexar páginas en Google

Una vez se ha publicado una página en nuestro sitio web, esta pasa a ser visible para los rastreadores (si está enlazada desde otra página indexada o sitemap y no está limitada mediante el archivo robots.txt), por lo que será indexada en un breve periodo de tiempo.

Aun así, podemos “forzar” esa indexación de forma casi inmediata si utilizamos la herramienta de solicitud de indexación de Google Search Console.

Forzar indexación en Google

→ Quizá te interese nuestro artículo sobre cómo comprobar que una página está indexada en Google.

Únicamente se podrán indexar las páginas con código de respuesta 200 y que no tengan etiqueta canonical enfocando a otra página de referencia (puede ser que Google considere que el contenido de la misma sea duplicado y asigne la página de referencia que considere).

Por lo tanto, cuando realizamos redirecciones estamos desindexando de forma indirecta esta página, aunque pueda seguir apareciendo en los resultados de Google durante un tiempo tras esta práctica.

¿Cómo facilitar a Google que indexe las páginas?

Como se ha comentado anteriormente, Google tiene dos formas de descubrir nuevas páginas de forma independiente: mediante enlaces internos desde otras páginas ya descubiertas o mediante el archivo sitemap.xml.

La inserción de enlaces internos en nuestras páginas facilita este proceso de rastreo, así como el reparto de autoridad entre las mismas. Otro punto a tener en cuenta es la actualización constante del sitemap; los CMS más utilizados lo actualizan de forma automática cuando se añaden nuevas páginas al sitio web, pero hay otras ocasiones en las que lo tenemos que hacer de manera manual.

¿Debemos indexar todas nuestras páginas?

Existen diferentes posturas respecto a esta cuestión. Seguro que muchos hemos escuchado que tenemos que evitar la indexación o el rastreo de ciertas páginas corporativas o legales como la política de cookies, privacidad, etc. Ya sea mediante la inserción de noindex en la metaetiqueta robots o mediante la regla disallow en el archivo robots.txt.

Esta creencia se basa en la evasión del contenido duplicado; como estas páginas contienen texto legal genérico que puede encontrarse en muchos otros sitios, se decide evitar que Google lo vea para que no nos penalice.

Pues bien, si echamos un vistazo a las directrices de Google sobre contenido duplicado, veremos que nos indica claramente que no nos recomienda bloquear el acceso a los robots de rastreo a páginas que consideremos que tienen contenido duplicado (que no estén enfocadas a posicionar).

“El contenido duplicado en un sitio no es motivo de acción sobre el mismo, a menos que la intención sea engañar y manipular los resultados de los motores de búsqueda”.

Google es capaz de rastrear una página de políticas de privacidad, identificar que se trata de un texto legal obligatorio y no penalizar que ese contenido sea duplicado. Se ha demostrado que la indexación o desindexación de este tipo de páginas no influye en el posicionamiento del sitio web en Google.

Como se ha comentado anteriormente, la indexación de una página web es el primer paso para obtener resultados en Google, por lo que debemos acompañar esta acción y conocimiento de una estrategia SEO adecuada y adaptada a nuestro negocio. En agenciaSEO.eu diseñamos los mejores caminos para que tu proyecto digital tenga éxito, ¿Hablamos?

Escrito por:

Felipe López

Felipe López

SEO Consultant en agenciaseo.eu. Graduado en Información y Documentación con Máster en Gestión de la Información en la Universidad Politécnica de Valencia. Me entretengo optimizando páginas web. Profesionalidad y cercanía como pilares principales.
Felipe López

Felipe López

SEO Consultant en agenciaseo.eu. Graduado en Información y Documentación con Máster en Gestión de la Información en la Universidad Politécnica de Valencia. Me entretengo optimizando páginas web. Profesionalidad y cercanía como pilares principales.
¿Que necesitas saber?

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Descarga nuestro EBook gratuito

GUÍA SOBRE SEO PROFESIONAL

Un caso práctico para enseñarte cómo mejorar tu posicionamiento web