INBOUND y MARKETING DIGITAL

27 Nov 2020

robot.txt

¿Qué es el archivo robots.txt? Aprende cómo sacar provecho en el SEO

 

 

Como persona interesada en el mundo del posicionamiento web con toda seguridad ya tendrás cierta noción sobre cómo actúa Google… Y la gran mayoría de motores de búsqueda al momento de asignar una Page Rank a tu página web.

Pero por si no lo sabes te lo explicamos: Los motores de búsqueda cuentan con una serie de rastreadores también conocidos como robots que se encargan de inspeccionar la calidad de todas las páginas en la red.

Y lo hacen desde dos enfoques: Simulando el comportamiento de los usuarios en un ordenador y simulando el comportamiento de los usuarios en dispositivos móviles. Así le asignan una calificación a cada página y se configuran las SERP.

Pero desde el punto de vista del desarrollador web y creador de contenido puede que existan páginas que no desees que sean rastreadas por el momento.

¡Y todo eso es posible gracias a un archivo llamado robots.txt!

Por todo lo explicado surge la pregunta: ¿Qué es el robots.txt? ¡Aquí tienes la respuesta!

Un archivo robots.txt es un comando de texto que le pone un alto a los rastreadores para que no los analicen ni los muestren entre las páginas de resultados.

Entonces damos respuesta a una segunda interrogante. ¿Robots.txt para qué sirve?

Ya sea porque no están listas para mostrarse al público o porque no quieres sobresaturar la capacidad de rastreo de Google. Pues si… El límite de URL que pueden ser rastreadas en un periodo determinado es limitado.

De esa manera le das prioridad a tus contenidos más nuevos o relevantes.

Para su uso es necesario que tengas mucho cuidado porque cualquier error podría afectar la indexación del resto de tu contenido… Pero no te preocupes:

A continuación te contamos todo lo que tienes que saber sobre el robots.txt. ¡Así que no pierdas detalle!

 

 

Importancia de crear el archivo robots.txt

Desde un enfoque centrado en el SEO el archivo robots.txt tiene una importancia inconmensurable. Porque es el filtro final que deberá atravesar tu página antes de mostrarse al mundo.

La experiencia de los usuarios puede verse comprometida en caso de acceder a una página web defectuosa en términos de contenido o usabilidad. Si ésta no aporta valor o por algún otro motivo resulte sin importancia para las personas. ¡Es posible que los pierdas por siempre!

Después de todo, nadie suele darle una segunda oportunidad a aquellas webs defectuosas… Y más aún en un mercado tan competitivo como es el Internet.

Es en ese punto que entra en valor el papel que juega el robots.txt. Pues es una herramienta que no permite que los buscadores analicen esas páginas dentro de tu dominio web que no están listas o que consideras que es mejor que no vean la luz.

En caso de no utilizar el robots.txt sucederá que Google o cualquier otro motor de búsqueda te juzgarán incluyendo esas páginas internas de menor calidad. Trayendo como resultado que la valoración o el page rank global de tu página web sea bajo.

¿Qué quiere decir esto? Un posicionamiento web pobre. ¡No querrás eso!

Y aunque no lo creas la aplicación del robots.txt es más común de lo que puede parecer porque por algún motivo u otro… Siempre existen páginas internas que como desarrollador web no se eliminan porque cumplen alguna función o porque estarás ocupado/a en otras cosas.

Por todos estos motivos lo mejor será que hagas del robots.txt un buen aliado para lograr el posicionamiento estratégico de tu portal web. ¡Vaya que es importante!

 

 

Características del robots.txt

El robot.txt es uno de los archivos más utilizados a causa de todo lo explicado hasta ahora. Es importante que conozcas todas y cada una de sus características… De esa forma podrás aplicarlo dentro de tu propio dominio web evitando cualquier tipo de contratiempos.

A continuación te presentamos las características más resaltantes de este archivo:

  1. No puedes cambiarle el nombre… Se siente muy a gusto con su denominación de robot.txt”.
  2. El archivo robots.txt se encarga de limitar el acceso de los robots de los motores de búsqueda a tu página web. ¡No de la posterior indexación!
  3. Debe ser colocado en la raíz de la página web.
  4. Cada parte de tu página web podrá tener su archivo robot.txt con configuraciones diferentes.
  5. Este archivo está escrito bajo el formato UTF-8 de codificación.
  6. El archivo robot.txt está conformado por grupos que deben ser habilitados o deshabilitados con los comandos “allow” o “disallow” de forma respectiva.
  7. Te permite ingresar almohadillas (#) para poder hacer comentarios. De esa forma podrás anotar el motivo por el cual no deseas que los rastreadores accedan a esa web. ¡Así evitarás cualquier configuración en el futuro!

 

¿Cómo encontrar archivos robots.txt?

Encontrar el archivo robots.txt es sencillo debido a que este se sitúa siempre en la raíz de la página web. De ese modo bastará tan solo con que sigas los pasos que te enlistamos a continuación:

  1. Accede a tu navegador de preferencia.
  2. Escribe la URL de la página en cuestión en la barra de búsqueda del navegador.
  3. Luego añade la extensión: /robots.txt al final del enlace que ingresaste en el navegador durante el paso anterior.
  4. Ya podrás distinguir dónde se encuentra el archivo.

Quizás en este punto surge la pregunta: ¿Qué beneficio se puede extraer al momento de indagar aquellas páginas que están utilizando este archivo?

Y la respuesta es muy clara: De esa forma podrás determinar qué páginas están escondiendo tus competidores de los ojos de los rastreadores de Google. Eso te permitirá obtener ciertas conclusiones interesantes…

¿Qué están ocultando? ¿Qué contenido están preparando? Todos esos datos también te permitirán hacerte una referencia de la estrategia de posicionamiento que aplican terceros y así corregir u optimizar la tuya. ¡Dale un buen uso a esa información!

 

 

¿Cómo crear el archivo robots.txt paso a paso?

Ahora que sabes de qué va el tema es momento de explicar cómo crear archivo robots.txt

  1. Debes abrir el bloc de notas o cualquier otra aplicación que funcione como editor de texto.
  2. No es necesario que asignes formato alguno al archivo… Esto quiere decir que su extensión siempre será de texto (.txt).
  3. Cada uno de los grupos que se creen deben iniciar por User-Agent. De esa forma podrás designar las características o parámetros bajo los cuales funcionará el robots.txt. También puedes agregar un asterisco al User Agent lo que será indicativo de que los parámetros insertados son representativos para todos los archivos robots.txt.
  4. Puedes también insertar la directiva “disallow” para indicar cuáles páginas no deberán ser rastreadas… Lo mismo ocurre con la directiva “allow” pero esta vez para apuntar cuáles directorios si deberán ser sometidos a prueba por los rastreadores.
  5. Es posible denegar el acceso a una URL específica ingresando tal cual aparece en la barra de navegación… Tan solo es necesario agregar un slash luego de ella. De esa manera cualquier otro enlace que se desencadene de esa dirección tampoco podrá ser revisado por los robots.
  6. Otra funcionalidad interesante es la de bloquear el acceso de los rastreadores a ciertos tipos de archivos que estén alojados en el dominio web. Un buen ejemplo es el caso de los archivos PDF… Si deseas que los robots de Google lo pasen por alto tan solo deberás utilizar el símbolo $ como terminación en el comando.
  7. Luego de que ya tengas preparado tu robots.txt puedes probarlo a través de la herramienta Google Search Console. Sin embargo, de eso hablaremos a profundidad un poco más adelante.

Gracias a todos esos pasos podrás obtener tu archivo robots.txt personalizado… ¡Así que te recomendamos que los sigas a rajatabla!

 

 

 

Elementos para aplicar el archivo robots.txt

Cómo pudiste haber notado en el punto anterior… Para poder utilizar de forma exitosa el archivo robot.txt deberás valerte de tres tipos de elementos. A continuación te explicamos un poco más a profundidad sobre cada uno de ellos:

  • User-Agent o Agente de Usuario: Es la denominación que sirve para darle instrucciones a los rastreadores. Dicho de otro modo el User-Agent es el propio robot del motor de búsqueda que va a recibir instrucciones a través de los comandos Disallow y Allow.
  • Disallow o Deshabilitar: Es la instrucción que le indica al agente de usuario que no debe actuar. De esa manera los rastreadores de Google o cualquier otro motor de búsqueda se frenarán y no analizarán la página en cuestión.
  • Allow o Habilitar: Es el caso contrario al comando Disallow. En esta oportunidad se inserta para darle la instrucción al User-Agent de que esta vez deberá poner su mirada en las páginas web que escriba este elemento.
  • Elementos adicionales de escritura: En este grupo entra el slash final que se utiliza para dar continuidad a una misma instrucción sobre todos los elementos contiguos a él. También entran en esta categoría algunos patrones como el asterisco o el símbolo de dólar.

Pero antes de lanzarte al ruedo y equipar con el archivo robot.txt a esas páginas que quieres proteger es necesario que seas crítico. En especial al momento de utilizar los comandos de Deshabilitar y Habilitar.

¿Por qué? Porque como ocurre en cualquier proceso de desarrollo web cualquier error de escritura puede traer fallas lógicas que pueden resultar catastróficas. Si no eres preciso al momento de restringir el acceso a los rastreadores sucederá que todas tus páginas serán analizadas… Incluyendo aquellas que querías proteger.

 

 

Empieza por probar todo

Como ya te hemos mencionado el archivo robot.txt tiene la capacidad de analizar todas y cada una de las páginas que conforman tu web… Entonces será mejor que saques provecho de eso.

Pero… ¿Una vez que es puesto en marcha como se pueden analizar sus resultados? ¿Dónde se encuentran? ¿Cómo puedo medir el rendimiento de mi archivo robot.txt?

Esas son preguntas muy frecuentes entre las personas que se inician en todo el mundo del posicionamiento web. Y la respuesta es la misma: Debes rastrear todo… Lo que desees.

Y luego acudir a la herramienta Search Console desarrollada por Google que te ofrecerá todas las estadísticas que necesitan sobre el comportamiento de sus rastreadores en tu web.

A continuación te explicamos cómo puedes sacar partido de esta herramienta…

 

 

¿Cómo comprobarlo mediante Google Search Console?

Si deseas comprobar robots.txt debes recurrir a la herramienta Google Search Console y proceder de la siguiente manera:

  1. Deberás ingresar a Google Search Console.
  2. Acceder a la sección “Estadística de rastreo”.

Podrás obtener información sobre las páginas rastreadas en intervalos diarios. También los kilobytes descargados por día y el tiempo de descarga de una página.

Del mismo modo podrás acceder a estadísticas sobre los promedios así como los picos y altos de rastreo para que así puedas detectar ciertos comportamientos atípicos.

Debes tener en cuenta que Google Search Console te ofrecerá el seguimiento del archivo robots.txt considerando los últimos 90 días. Eso quiere decir que no te puedes olvidar de él y debes hacerle un chequeo constante.

Ahora bien si lo que quieres es probar el rendimiento de tu robots.txt. ¡Con Google Search Console también puedes hacerlo! De la siguiente forma:

  1. Accede a Google Search Console.
  2. Dirígete a la sección “Probador de robots.txt”.
  3. Ingresa el archivo robots.txt que deseas probar.
  4. Ingresa la URL que va a ser verificada.

Tomate el tiempo que sea necesario para optimizar tu archivo robot.txt o de lo contrario podrás llevarte ciertos contratiempos indeseados.

¡Y hasta aquí todo lo que tenemos que contarte sobre el archivo robots.txt!

Esperamos que esta información haya sido de tu agrado y de gran utilidad. ¿Fue así? Entonces compártelo con tus compañeros y amigos para que ellos también puedan regular el acceso de los robots de los motores de búsqueda.

Pero antes de irte déjanos tus dudas o comentarios sobre el robots.txt. ¿Lo has utilizado ya como mecanismo para mejorar tu estrategia SEO? ¡Cuéntanos tus experiencias!

Recuerda visitar todo el contenido que traemos para ti donde encontrarás mucha información sobre tips que junto al robots.txt. ¡Te permitirán alcanzar el posicionamiento ideal para tu página web!

mentedigitl