El archivo robot.txt es un archivo de texto utilizado por los sitios web para comunicarse con los robots de los motores de búsqueda. También con otros rastreadores web. Su función principal es indicar a estos bots qué partes del sitio web pueden o no pueden ser rastreadas o indexadas.

Cuando los motores de búsqueda, como Google, Bing u otros, envían sus bots para explorar e indexar páginas web, estos rastreadores primero buscan el archivo robot.txt en la raíz del sitio web. Contiene reglas específicas que indican a los rastreadores qué páginas o directorios deben omitir o cuáles pueden rastrear. Es importante destacar que el archivo no bloquea el acceso real a las páginas web, solo proporciona una orientación a los rastreadores sobre cómo deben comportarse.

Un ejemplo de contenido en un archivo robot .txt puede ser:

User-agent: *
Disallow: /private/
Disallow: /admin/

En este ejemplo, el asterisco (*) bajo «User-agent» significa que las reglas se aplican a todos los rastreadores. El «Disallow» indica las rutas que no se deben rastrear. En este caso, las rutas «/private/» y «/admin/» no serán rastreadas por los bots.

Es importante tener cuidado al editar el archivo robot.txt, ya que bloquear accidentalmente partes importantes del sitio afectará la visibilidad en los motores de búsqueda. Si no se encuentra un archivo de las características indicadas en un sitio web, los rastreadores seguirán indexando todo el contenido disponible.

robot.txt

¿Cuál es la manera correcta de usar el archivo robot.txt?

Para usar el archivo robots.txt de manera correcta, debes seguir algunas pautas y prácticas recomendadas para asegurarte de que los rastreadores de los motores de búsqueda interpreten correctamente las reglas y eviten indexar contenido no deseado. Aquí tienes algunos consejos sobre cómo utilizar el archivo de forma adecuada:

  • Coloca el archivo en la raíz del sitio web: asegúrate de que el archivo robots.txt se encuentre en la ubicación principal de tu sitio web (por ejemplo, https://www.ejemplo.com/robots.txt). Los rastreadores buscarán automáticamente el archivo en esta ubicación.
  • Utiliza la sintaxis correcta: el archivo robots.txt debe estar escrito en texto plano sin ningún formato especial. Puedes usar el bloc de notas o cualquier editor de texto simple para crear o editar el archivo.
  • Especifica un User-agent: empieza cada conjunto de reglas con la línea «User-agent:«, seguida del nombre del rastreador o el asterisco (*) para aplicar las reglas a todos los rastreadores.
  • Utiliza «Disallow» para bloquear rutas: utiliza la directiva «Disallow» seguida de una o varias rutas que no desees que los rastreadores indexen o sigan. Puedes usar el símbolo «/» para indicar la raíz del sitio y rutas específicas para bloquear directorios o archivos.

Acciones complementarias recomendadas al implementar el archivo robot.txt

  • Emplea «Allow» para permitir acceso: si deseas permitir que los rastreadores accedan a un contenido específico dentro de un directorio bloqueado, utiliza la directiva «Allow» seguida de la ruta permitida. Ten en cuenta que no todos los rastreadores reconocen esta directiva.
  • Utiliza comentarios: puedes añadir comentarios en el archivo para aclarar el propósito de ciertas reglas o proporcionar información útil para otros desarrolladores. Los comentarios son indicados con el símbolo «#» y son ignorados por los rastreadores.
  • Ten en cuenta mayúsculas y minúsculas: los robots.txt distinguen entre mayúsculas y minúsculas, por lo que debes asegurarte de escribir correctamente las rutas y nombres de los rastreadores.
  • Verifica y valida: una vez que hayas creado o modificado el archivo robots.txt, verifica su contenido y asegúrate de que las reglas sean coherentes y apropiadas para tu sitio web. También puedes utilizar herramientas en línea para validar la sintaxis del archivo.

Recuerda que el archivo robot.txt es una herramienta para guiar a los rastreadores web, pero no es una medida de seguridad. Si deseas proteger ciertas áreas sensibles de tu sitio, es fundamental implementar otras medidas de seguridad, como autenticación y permisos adecuados.

¿Cómo crear un archivo robot.txt?

Crear un archivo robot.txt es un proceso sencillo. Aquí indicamos los pasos para crear uno:

Abre un editor de texto

Puedes utilizar cualquier editor de texto simple, como el Bloc de notas en Windows o el TextEdit en macOS.

Escribe las reglas

A continuación, debes escribir las reglas que deseas aplicar en el archivo robot.txt. Puedes utilizar las directivas «User-agent», «Disallow» y «Allow» para especificar el comportamiento que quieres para los rastreadores.

Guarda el archivo

Una vez que hayas escrito las reglas en el editor de texto, guárdalo como «robots.txt«. Es importante asegurarte de que el nombre del archivo sea exactamente «robots.txt» (sin comillas) y que no tenga una extensión adicional como «.txt» o «.doc». Esto garantiza que los rastreadores puedan encontrar el archivo fácilmente.

Sube el archivo a la raíz de tu sitio web

Luego debes subir el archivo robots.txt a la raíz de tu sitio web. Puedes utilziar un cliente FTP (Protocolo de Transferencia de Archivos) o a través del panel de control de tu servicio de alojamiento web.

Verifica la ubicación del archivo

Asegúrate de que el archivo robots.txt esté correctamente ubicado en la raíz de tu sitio web navegando a través de la siguiente URL: https://www.tusitioweb.com/robots.txt. Reemplaza «tusitioweb.com» con el nombre de dominio de tu sitio.

Valida el archivo (opcional)

Si lo deseas, puedes utilizar herramientas en línea para validar la sintaxis de tu archivo robots.txt. Así podrás asegurarte que esté correctamente formateado.

Aquí tienes un ejemplo sencillo de un archivo robots.txt que bloquea el acceso a todo el sitio web:

User-agent: *
Disallow: /

Recuerda que crear un archivo robot.txt es una manera de conducir a los rastreadores, pero no es una medida de seguridad absoluta. Si deseas proteger áreas confidenciales del site, valora utilizar otros métodos de seguridad complementarios, como el de autenticación y los permisos adecuados. Es algo que hemos comentado antes pero es importante recalcarlo para quede totalmente claro.