OUR BLOG

03 Oct 2019
thumbnail

Comprender qué son las arañas web (crawlers)

Crawler O Araña Web

¿Qué es crawler o araña web? En este post te lo enseñaremos porque sabemos que si trabajas en el mundo SEO es importante que tengas este punto claro. Así que presta mucha atención porque vamos aprender.

Hoy en día muchas personas acceden a la web, la popularidad del internet en la sociedad actual es impresionante, ya que para la mayoría de las operaciones bien sean bancarias, de comunicación e información, utilizan internet, por ello la mayoría de las compañías a nivel mundial han implementado el internet en sus organizaciones, y sus empleados y miembros utilizan internet, en pocas palabras el internet se ha vuelto una herramienta de suma influencia en la masas de personas.

Ahora bien muchos conocemos el internet y sus beneficios, pero pocas personas se detienen a preguntarse el funcionamiento como tal de la Web, o el de los exploradores que utilizamos para navegar en ella, por ejemplo se ha preguntado usted cómo funciona Google técnicamente hablando, en pocas palabras ¿qué es lo que acontece cada vez que realizas una búsqueda?, y cuando hacemos esta gran pregunta vemos aparecer términos como Crawler también conocido como araña de Google.

Pero ¿Qué Es Un Crawler O Esta Famosa Araña De Google Que Hemos Oído Mencionar?

Lo podemos definir bien sea como un software o un webbot que su función es de rastrear de una manera u otra todas las páginas web disponibles en línea, y no solo esto sino que además lee, analiza y entiende estas páginas, y luego envía la información a un servidor, para que según un algoritmo especial aparezcan en determinada posición en los resultados de búsqueda.

Ahora bien como este programa según este algoritmo antes mencionado realiza las búsquedas de aginas indexadas en la Web o Red de la Araña, se le conoce con el nombre de Araña Web.

Y en este punto es necesario mencionar que cualquier Crawler que exista, ya sea de Google o de cualquier otra plataforma, no deja de ser un programa informático muy pequeño hecho para leer código y seguir enlaces, el Crawler no está viendo las imágenes sin importar lo buenas que estas sean o el fenomenal diseño de tu WebSite, ya que el solo lee el código fuente, y se lo lleva al servidor de manera que éste último sea el que de una manera u otra lo procese y pondere las señales de posicionamiento “esto claro en el caso de Google” que posee esa página

El Crawlling

Cada recorrido por las páginas web e indexarlas realizado por el Crawler requiere un tiempo determinado o mejor dicho cuenta con un tiempo determinado, a este tiempo utilizado por el Crawler se le conoce como Crawlling.

En el caso de Google, el mismo Google ordenará las páginas encontradas según la búsqueda realizada, en función del contenido, además de otros factores matemáticos para brindar a los usuarios el resultado más factible, por ello los que manejan seo es de vital importancia que mediante el SEO onpage, le indiquemos al buscador en qué debería emplear su tiempo dentro de nuestra web.

Funcionamiento De Los Crawlers.

Necesitamos entender que cada uno de los Crawlers específicamente tiene a su disposición un conjunto determinado de URL’s conocidas por el cómo semillas, ahora bien al ejecutar el rastreo en Internet va descargando más páginas web asociadas a las semillas y buscando dentro de estas páginas web más semillas, y todas estas nuevas URL´s encontradas se añade a una lista que la araña de Google deberá visitar, es decir que recolecta URL’s para posteriormente procesarlas; y de esta forma es que Google puede crear un índice de las páginas previamente descargadas y de esta manera dar resultados más rápidos y eficientes.

Hay dos acciones que debemos mencionar realiza un webbot al momento de visitar un WebSite

  1. Lo primero es que Busca el archivo robots.txt y la meta etiqueta robots para conocer qué reglas tiene, es necesario mantener siempre presente que el protocolo de robots.txt es un método para evitar que los bots investiguen toda la página web, por ello se suele restringir a las páginas con contenido de valor para posicionar en buscadores.
  1. Lo segundo acción que debemos mencionar es que ellos de una forma u otra recopilan un índice de las páginas web que hay en la página web, explorando el texto visible (es decir el contenido), las etiquetas html (en esto entra la categorización de los títulos h1, h2 y h3) y los enlaces (linkbuilding).

Cual Podríamos Decir Es El Crawler Mas Famoso o Más Popular Que Existe.

Existe una gran cantidad de Crawlers que son capaces de rastrear y analizar diferentes tipos de información contenida en nuestro sitio web, pero entre los Crawler más famosos que existen debemos mencionar Googlebot y Googlebot no es más que un robot de búsqueda, propiedad de Google el cual colecciona documentos de la web, con el fin de levantar una base de datos y de esta forma ofrecer resultados competentes al motor de búsqueda Google.

Debemos destacar que Googlebot cuenta con dos versiones disponibles, DeepBot, FreshBot.

El primero es DeepBot. Y Su principal función es investigar profundamente nuestra web tratando de seguir cualquier enlace que encuentre. Entre sus acciones encontramos también el de poner nuestra página en caché y dejarla disponible para Google.

Y luego esta FreshBot. Cuya acción principal es la de recoger contenido nuevo, y para ello el investiga tu web, una característica fundamental de este bot, es que el visitará la página web todos los días si tiene contenido nuevo cada día, o de forma quincenal, o cada mes, etc. Todo dependiendo si tiene contenido.

Dicho esto también cabe resaltar que podemos comprobar si GoogleBot ha visitado de alguna forma nuestra página, pero ¿Cómo Lo Hacemos? Es simple solo echando un vistazo los logs de nuestro servidor, y que son estos logs bueno no son más que archivos en los cuales se guarda un registro de actividad del sistema, adicionando líneas a medida que se van realizando visitas o acciones en nuestra página, pero como sabemos que es Googlebot quien hiso la visita, fácil allí en estos Logs vamos a Hallar registrada la información del Crawler y la dirección de ip; y cuando GoogleBot culmine de rastrear nuestra sitio web, el seguirá los enlaces que encuentre, aquí es donde radica la importancia del enlazado interno y que otras páginas web puedan enlazar a tu sitio.

Sin más que agregar solo me queda algo por decir y es que sigas aprendiendo, ahora solo me despido y te deseo el mayor de los éxitos en todo lo que respecta tus proyectos de posicionamiento web.

jsc_mko

Write a Reply or Comment

error: Contenido protegido !