El Protocolo de exclusión de robots (REP) de Google , también conocido como robots.txt, es un estándar usado por muchos sitios web para indicar a los rastreadores automáticos qué partes del sitio deben ser rastreadas o no.
Sin embargo, no es el estándar adoptado oficialmente, lo que lleva a diferentes interpretaciones. En un intento por convertir a REP en un estándar web oficial, Google cuenta con un analizador robots.txt de fuente abierta y la biblioteca C ++ asociada que creó hace 20 años. Puedes encontrar la herramienta en GitHub .
REP fue concebido en 1994 por un ingeniero de software holandés Martijn Koster, y hoy en día es el estándar de facto utilizado por los sitios web para instruir a los rastreadores.
El rastreador de Googlebot recorre el archivo robots.txt para encontrar instrucciones sobre qué partes del sitio web debe ignorar. Si no hay un archivo robots.txt , el bot asume que está bien rastrear todo el sitio web.
Sin embargo, este protocolo ha sido interpretado "algo diferente a lo largo de los años" por los desarrolladores, lo que lleva a la ambigüedad y la dificultad de "escribir las reglas correctamente".
Por ejemplo, existe incertidumbre en los casos en que el "editor de texto incluye lista de materialescaracteres en sus archivos robots.txt ". Mientras que para los desarrolladores de herramientas y rastreadores, siempre hay incertidumbre acerca de" ¿cómo deben tratar con los archivos robots.txtque tienen cientos de megabytes? "
Esta es la razón por la que Google quiere que REP se adopte oficialmente como un estándar de Internet con reglas fijas para todos. La compañía dice que ha documentado exactamente cómo se debe utilizar el REP y presentó su propuesta al Grupo de trabajo de ingeniería de Internet (IETF).
Si bien no podemos decir con certeza que REP se convertirá en un estándar oficial; Definitivamente ayudaría a los visitantes de la web, así como a los propietarios de sitios web, al mostrar resultados de búsqueda más consistentes y respetar los deseos del sitio.
0 Comentarios