In SEO, WordPress
Robots.txt y sitemap ¿Qué son y como configurarlos?
4.67 (93.33%) 6 votos

Hola!

Hoy vengo a resolver muchas dudas que generan los archivos robots.txt y el sitemap.xml.

Seguro que más de una vez te has preguntado si lo estabas haciendo todo bien, ya que tienes la sensación de que algo falla en tus técnicas de SEO. Esto puede estar pasándote por una mala configuración de estos archivos robots.txt o incluso del sitemap.xml!

Yo mismo después de revisar el robots.txt del blog he comprobado que funciona mejor la indexación de mis posts.

¿Por qué tengo que saber configurar el robots.txt?

  • Centrar el rastreo de los buscadores solo en los contenidos que nos interesan.
  • Mejorar el posicionamiento SEO de la página web o blog.
  • Evitar contenido duplicado.
  • Evitar penalización.

 

El archivo robots.txt es un archivo de texto que debes tener en la raíz de tu sitio para dar a los motores de búsqueda información sobre como indexar nuestra página web.
Está claro que aunque no hayas tocado nada de este archivo, Google ya se habrá pasado por tu página web y habrá indexado contenido. (Todo esto si has dado de alta tu web en Google Webmaster Tools, ahora “Search Console”)

Pero el problema viene cuando no quieres que Google indexe cierto contenido ¿verdad?
Pues para eso está este archivo robots.txt

¿Y qué puedo hacer con el archivo robots.txt?

  • Prohibir la indexación de toda la página web (a no ser que estés loco dudo que sea tu opción.)
  • Prohibir la indexación de un directorio (o sub-directorio)
  • Prohibir la indexación de una URL (se utiliza frecuentemente para páginas privadas)
  • Prohibir la indexación de tipos de archivos (pdf,png,xls,etc..)
  • Prohibir el acceso según el robot
  • Indicar al robot de Google la url del sitemap (por si se pierde ¡vaya!)
  • Y mucho más!

Creando el archivo robots.txt perfecto!

Es algo tan sencillo como abrir un editor de texto y llamar al nuevo archivo robots.txt

Un archivo de robots.txt para WordPress debería de ser algo así:

 

SUSCRIBETE YA A MI BLOG Y RECIBE EN TU CORREO 2 EBOOKS GRATUITOS

¡ÚNETE YA A MI PEQUEÑA TRIBU!

Te mandaré al instante los 2 Ebooks que he preparado para ti :)

[su_box title=”Ejemplo de mi archivo robots.txt” box_color=”#0961cf”]

User-agent: *

Disallow: /wp-content/plugins/

Disallow: /wp-includes/

Disallow: /wp-admin/

Disallow: /*? Disallow: /cgi-bin/

Disallow: /wp-content/cache/

Disallow: /tag/

User-agent: Mediapartners-Google*

Allow: /

User-agent: Mediapartners

Allow: /

User-agent: AdsBot-Google

Allow: /

User-agent: Googlebot

Allow: /

User-agent: Googlebot-Mobile

Allow: /

User-agent: Googlebot-Image

Allow: /wp-content/uploads/

Sitemap: http://masqueunaweb.com/sitemap_index.xml

Sitemap: http://www.masqueunaweb.com/feed/[/su_box]

La verdad, hasta hace cosa de 2 semanas tenía el archivo robots.txt que viene por defecto. Notaba que en Feedly no se veían las imágenes de los posts.

Desde que he puesto todo estos comandos, ya no hay problema!

[bctt tweet=”Yo tampoco tenía ni idea de que eran los Robots.txt y Sitemap.xml de mi página web hasta que leí este post de Alex Sanchez!”]

Pero bueno voy a explicarte que quiere decir cada cosa para que te quede claro que vas a hacer con cada comando.

  • User-agent: Con este comando, indicamos a qué tipo de robots van dirigidas las reglas posteriores. Si pones un asterisco, serán efectivas para todos ellos.
  • Allow: Con este comando le indicamos que autorizamos a ese bot para que pueda acceder a nuestra página web.
  • Disallow: Con esta etiqueta se indica lo que se quiere bloquear y que no sea indexado. Podemos bloquear todo el sitio, un directorio y su contenido, una página web, una imagen, etc., etc. Además se pueden utilizar “comodines” para realizar concordancia mediante patrones. Hay que tener en cuenta que se distingue entre mayúsculas y minúsculas.

Pero no es oro todo lo que reluce, y el archivo robots.txt no iba a ser menos.
La pega que tiene este archivo es que a la hora de bloquear una página para los buscadores, con el robots.txt no transmite la fuerza del SEO (PA) entre las páginas bloqueadas.

Pero para eso existe la etiqueta meta robots!

¿Como uso la etiqueta meta robots?

Para activar la etiqueta meta robots para una página o enlace es tan fácil como añadir el código en HTML en la cabecera de tu página web (entre y )

El aspecto del código es este:

<name=”robots” content=”VALORES”>

Y estos serían los diferentes valores que se le podrían aplicar:

  • Index / NoIndex: con este valor le indicamos al robot si tu página debe indexar o no esa página.
  • Follow / NoFollow: con este otro le indicamos si queremos que los enlaces de tu página deben ser rastreados y pasar fuerza entre enlaces, o no.

Además, se pueden combinar. Aunque la más usada para ayudar al problema que ya he mencionado antes debería de ser NoIndex, Follow ya que evita la indexación pero mantiene la fuerza entre enlaces.

[su_box title=”Tip de Ayuda” box_color=”#0961cf”]Para usar estos comandos en WordPress puedes usar el Plugin SEO by Yoast o alguno similar. En la pestaña de Avanzado podrás encontrar estas opciones.[/su_box]

Como crear tu sitemap.xml

Con esto ya te puedes ir a desayunar tranquilo.
Supongo que usarás el plugin SEO by Yoast, si no es él caso deberías. 😛

Si usas este plugin en cuestión, te será fácilisimo crear tu sitemap con tan solo unos clicks!

Para ello solo tienes que ir hacia el menú del Plugin (SEO) > Sitemaps XML

Una vez allí lo único que tienes que hacer es activar el sitemap marcando la casilla de arriba.

sitemap-xml

Activando el Sitemap con SEO by Yoast

 

¿Cómo saber que todo funciona correctamente?

Es tan fácil como iniciar sesión en Google Webmaster tools y en Rastreo > Probador de robots.txt, ahí encontrarás toda la información de tus robots, así como si hay algún error o no en el uso que Google hace de el.

Hasta aquí el post de hoy, ¿te ha servido de ayuda?

¿Hay algo que no he explicado? ¿Usas otra herramienta para ello?

Alex Sanchez
Entusiasta, emprendedor, amante del buen fútbol y loco por los bull terrier. Me apasiona lo que hago, las tecnologías y el deporte. Si buscas contenido interesante sobre WordPress, Prestashop, Marketing, y algo de SEO este es tu blog.
Recommended Posts
Showing 6 comments
  • Juanra
    Responder

    ¡¡Otro artículo muy interesante Alex!!

  • Javi Felices
    Responder

    Siempre compartiendo cosas de mucho valor, y parece que te estaba buscando, tengo que “hacer” un robots.txt, iba a meter lo típico, que funciona, pero ahora lo gestionaré mejor, aunque es verdad que la web no es un blog donde se publiquen entradas todas las semanas, es una tienda online con un CMS propio de la empresa que gestiona el hosting, y no tenia el fichero (yo no digo nada jajajaja) pero bueno, ahora lo optimizaré mucho mejor 😉

    Sobre el sitemap, supongo que hace lo mismo la función del seo yoast que el plugin Google XML Sitemap, que es hasta ahora el que he usado en alguna ocasión.

    Un saludo y gracias.

    • Alex Sanchez
      Responder

      Vaya, me alegro que lo estubieses buscando Javi! Recuerda que para las tiendas online, te va a servir de más ayuda las etiquetas meta robots con el comando NoIndex, Follow para así no indexar las páginas o enlaces en cuestión pero si que pasará la fuerza del enlace.
      Sobre el sitemap, el de Yoast va de sobra! yo lo uso también!

      Un saludo crack!

      • Javi Felices
        Responder

        Como te comentaba, un compromiso, tienen una web con un CMS propio de la empresa de hosting, no entraré a valorar esto, en este caso, habría que hablar con ellos para ver que sistema tienen, o usar un robots.txt genérico puro y duro, y a tirar millas, verdad?

        Un saludo y gracias.

        • Alex Sanchez
          Responder

          Hola Javi!
          Pon el robots.txt que he puesto aquí, y si quieres que google no indexe cierta página solo añadele el atributo Index,Nofollow!

          Un saludo crack!

Leave a Comment

Contacta conmigo

Envíame un email con lo que necesitas y te enviaré un presupuesto ajustado a lo que buscas en menos de 48 horas.

Not readable? Change text.

Start typing and press Enter to search