Los motores de búsqueda visitan cada cierto tiempo los sitios web y rastrean el contenido de éstos a través de robots, también conocidos como arañas.

Indexación Motores de Búsqueda

Los robots más conocidos son Googlebot que es el robot de Google, Yahoo_Slurp  de Yahoo o Msnbot de Bing. Al descubrir nuevos contenidos los robots añaden éstos a un índice, lo valoran y deciden su indexación en los resultados de búsqueda.

¿Para qué sirve el Robots.txt?

Para facilitar la indexación de un sitio web el administrador del sitio debe utilizar lo que se conoce como fichero “robots.txt”.  Este fichero sirve para dar instrucciones a los robots sobre qué contenidos deben rastrear y cuáles no y cómo deberían hacerlo.

Algunas características de este fichero son:

  • Este fichero debe ser único en un sitio web, salvo que existan subdominios. En ese caso deberemos incluir un fichero robots.txt para cada uno de los subdominios y otro para el dominio principal.
  • Destacar que este fichero debe ser creado en un documento de texto normal sin formato.
  • Debemos tener cuidado con las urls ya que son sensibles a mayúsculas y minúsculas y no dejar espacios en blanco entre líneas.
  • Es importante que respetemos el nombre del fichero “robots.txt” para que sea encontrado fácilmente por los robots.
  • El fichero además debe subirse a la raíz del sitio web porque es ahí donde van a ir a buscarlo.
  • Es recomendable establecer una jerarquía en las instrucciones que le demos, ya que en un mismo fichero puede haber distintas reglas aplicadas a distintos buscadores.
  • Es aconsejable que en el fichero robots.txt hagamos mención a la ruta donde se encuentra el sitemap, que no es más que otro fichero que contendrá todas las urls que tiene el sitio web.

 

¿Cómo se usa el Robots.txt?

El fichero robots.txt utiliza dos comandos:

1) User-Agent: para informar sobre a qué robot se le aplica la regla escrita a continuación.

  • Si ponemos User-agent: * estaremos aplicando la regla sobre cualquier robot.
  • Si por contrario, utilizamos por ejemplo User-agent: Googlebot le estaremos diciendo que la regla contenida a continuación es aplicable solo al robot de Google específico para Web.

2) Disallow: para informar sobre la URL que queremos bloquear
Si no queremos que sea indexado todo lo contenido del directorio imágenes pondríamos “disallow: /imágenes/”.

Funcionalidades del fichero robots.txt:

  • Evitar que algunas partes de tu sitio web sean rastreadas e indexadas por los buscadores.  Ejemplo de ello podrían ser los pasos en una pasarela de pago, la intranet o los retornos de formulario con las páginas de ok/error.
  • Permite evitar que se indexe contenido duplicado. Por ejemplo, en el caso que tuviéramos una página de productos en nuestro sitio web y además aparte utilizáramos una Landing Page para atraer al usuario (replica del texto de la de productos) podríamos evitar ser penalizados por duplicidad de contenidos  diciéndole al robot que no indexe la Landing Page.
  • Impedir el acceso a algunos robots a contenidos de tu sitio web.

 

Ejemplos de Robots.txt

Veamos un ejemplo de robots.txt y analicémoslo.

La siguiente imagen corresponde al fichero robots.txt de la Casa Real. En primer lugar con “User-agent: *” indican que las reglas se aplican a todos los robots que intenten acceder.  Además, indican con Disallow que desean evitar que cualquier contenido de su sitio web relacionado con Iñaki Urdangarin en cualquiera de los idiomas listados sea rastreado, indexado y mostrado al usuario. Por último añaden la url donde se encuentra el sitemap.xml para que los robots puedan conocer el listado de urls del sitio web que quieren indexar en los buscadores.

Robots.txt

 

Puedes conocer más sobre el fichero robots.txt visitando el centro de soporte de Google o la web oficial robotstxt.org

En próximos post os enseñaré otras formas de evitar que se indexen contenidos en los resultados de búsqueda como son utilizar la meta etiqueta “NOINDEX”, usar .htaccess para proteger directorios con contraseña o eliminar contenidos ya rastreados a través de las Herramientas para Webmasters de Google y Bing.

Si te ha gustado este artículo, puedes dejarme un comentario, seguirme en Facebook, Twitter, Google Plus o Linkedin o difundirlo en tus redes sociales, así me animas a seguir compartiendo conocimientos con la comunidad.

Además, si te interesan estos temas puedes encontrar más información en la web www.solucionesc2.com o suscribirte al blog para recibir en tu correo electrónico todas las publicaciones.

 

<   Volver al listado principal