SEO: Para qué sirve y cómo crear un fichero robots.txt 1


El fichero robots.txt no es más que una serie de directrices y orientaciones de rastreo para indicar a los Bots (también llamados Spiders, Crawlers o indexadores) qué URL queremos que no se indexen en el buscador. Es decir, que con ello limitaremos el acceso a una carpeta, aumentaremos o disminuiremos la frecuencia de rastreo, etc.

Cabe indicar que estas limitaciones no siempre detendrán a todos los bots, ni a los hackers. Como decimos, son indicaciones para los bots que indexan páginas en los buscadores como Google. Si quieres defenderte de ataques, entonces busca otras soluciones de seguridad.

  • ¿Para qué sirve entonces usar un fichero robots.txt?
    • Evitar contenido duplicado. Lo más importante, ya que si lo hacemos los buscadores nos puntuarán más alto y aumentarán nuestro tráfico.
    • Prohibir el acceso a zonas de tu Web que quieres que estén disponibles para los usuarios que no aparezcan indexadas en los buscadores.
    • Limitar el acceso a ficheros de recursos para reducir la sobrecarga del servidor. Podemos evitar que se carguen ficheros como por ejemplo, las imágenes, hojas de estilos o scripts… Pero, si la ausencia de los recursos complica el análisis del rastreador, no deberías bloquearlos.
  • ¿Cómo creo un fichero robots.txt?
    Para empezar, debemos saber que este fichero debe ubicarse en la ruta raíz de nuestra web.

    Debemos saber que tenemos diferentes herramientas online que nos ayudan a crear el fichero generado de forma automática, o podemos hacerlo nosotros mismos. En mi opinión siempre es mejor la opción personalizada y controlada, esto es, la manual, aunque suele ser la más difícil y para lo cual hay que entender un poco la sintaxis de este fichero. Es por ello que recomiendo la lectura de los estándares de exclusión de robots de Wikipedia.

    La sintaxis que necesitamos conocer:

    • User-agent: [Nombre del robot al que aplicarán las reglas siguientes. Si ponemos un asterisco, aplica a todos]
    • Disallow: [La ruta de la URL que queremos bloquear]
    • Allow: [La ruta de la URL de un subdirectorio que queremos desbloquear cuando la carpeta padre está bloqueada]
  • Ejemplo:
    Nada mejor que un ejemplo:

    Analizando el fichero en cuestión tenemos que:

    • Aplicamos las reglas a todos los robots con el User-agent: *
    • Bloqueamos el contenido de la carpeta /temp/ con el Disallow: /temp/, al igual que las carpetas /test/, /img/, /css/ y /log/.
    • Bloqueamos el acceso a todos los scripts con el Disallow: /*.js$
    • Bloqueamos el acceso a todas las hojas de estilos con el Disallow: /*.css$
    • Indicamos la ruta de nuestro sitemap.xml con el Sitemap: http://jias.es/sitemap.xml

Como hemos visto en el ejemplo, una buena práctica es indicar dónde se encuentra nuestro Mapa de Sitio o también llamado sitemap.xml. Si no conoces qué es, te recomiendo la lectura de este artículo que publicaremos próximamente: Para qué sirve y cómo crear un fichero sitemap.xml

Fuentes:
Google
Metricspot


Dejar un Comentario

Un comentario en “SEO: Para qué sirve y cómo crear un fichero robots.txt