¿Cómo comprobar el archivo robots.txt?

¿Cómo comprobar el archivo robots.txt?

Existen varios motivos por los que es recomendable y/o necesario añadir el archivo robots.txt a la raíz del dominio de nuestra web.

La orden más habitual añadida es el “disallow” que viene a decirle al Googlebot que no debería visitar y por tanto no indexar, las páginas o conjunto de páginas que le indiquemos seguidamente.

Las típicas páginas como /wp-admin o /acceso que permiten el login al site o en casos de páginas que ya no existen o por motivos de contenido duplicado generado por filtros,…

¿Cómo funciona el robots.txt?

Un ejemplo:

User-agent: *

Disallow: /categoría-A

La primeria línea indica a qué robot afecta dicha orden, en este caso el asterisco (*) significa a todos. Podríamos elegir si Google (Googlebot), Bing (MSNbot),…

La segunda, “/categoría-A” significa que toda URL que empiece por midominio.com/categoría-A no debe ser visitada por el bot y, por tanto, no indexada.

¿Cómo enviar y verificar el archivo robots.txt?

El archivo siempre debe subirse en la raíz de la web. Es decir, midominio.com/robots.txt.

Si queréis verificar si vuestro archivo robots.txt está bloqueando las páginas que realmente deseamos, simplemente tendréis que dar de alta vuestro site en la herramienta Google Webmasters Tool -que es gratuita-.

Dentro de esta herramienta, en de la sección Rastreo encontramos el Probador de robots.txt:

wmt rastreo

Al acceder nos encontraremos con la siguiente página:

probador robots txt wmt

Aquí veremos la última versión del archivo robots.txt -la herramienta nos muestra la fecha de procesamiento- y nos indicará si hay errores o advertencias en el archivo.

En la parte inferior podremos ir probando URLs y Google nos irá diciendo si el acceso a ese página lo tiene PERMITIDO o BLOQUEADO. En el caso de que este bloqueado nos indicará porque línea del archivo se produce el bloqueo.

Además, podemos editar el archivo en la misma herramienta y probar nuestras correcciones. Es importante remarcar que esta edición no actualiza el archivo real robots.txt, sólo es de prueba. Si refrescáis la página volveréis al archivo real.

Deja un comentario

Esta web utiliza 'cookies' propias y de terceros Al navegar o utilizar la web acepta el uso que hacemos de las 'cookies'. Para más información consulte la Política de Cookies Más información

Los ajustes de cookies de esta web están configurados para "permitir cookies" y así ofrecerte la mejor experiencia de navegación posible. Si sigues utilizando esta web sin cambiar tus ajustes de cookies o haces clic en "Aceptar" estarás dando tu consentimiento a esto.

Cerrar