Principal
/
Ayuda con Páginas Web
/
Borrar y Suspender un Sitio
/
Cómo usar WordPress robots.txt (Buenas Prácticas y Ejemplos)

Cómo usar WordPress robots.txt (Buenas Prácticas y Ejemplos)

El archivo WordPress robots.txt es esencial para mejorar el SEO de tu página. Comprender y configurar correctamente un archivo robots ayuda a los motores de búsqueda a interactuar mejor con tu sitio web de WordPress.

En este artículo, te guiaremos a través de las mejores prácticas y proporcionaremos ejemplos para asegurar que los motores de búsqueda rastreen tu contenido de manera efectiva. Centrarse en áreas clave puede mejorar el rendimiento de tu sitio y visibilidad en los resultados de búsqueda.

En esencia, el archivo WordPress robots.txt actúa como una guía para rastreadores y robots web diciéndoles qué partes de tu sitio web pueden visitar y index. Gestiona el tráfico del rastreador hacia tu sitio web usando reglas.

WordPress viene con una función que genera un archivo robots.txt dinámicamente – este no es un archivo físico almacenado en tu servidor. Esto significa que WordPress crea automáticamente un archivo virtual tras una solicitud de rastreo de un bot de un motor de búsqueda.

Bloquear el rastreo de una página en robots.txt no significa explícitamente que Google no la indexará si hay otras páginas que enlazan a ella. Además, Google recomienda usar otros métodos (como “nofollow“) para restringir el rastreo de la página.

¿Qué hay dentro del archivo robots.txt?

El archivo robots.txt predeterminado generado por WordPress está diseñado para permitir que los bots de los motores de búsqueda rastreen la mayor parte de tu sitio web. Al mismo tiempo, restringe el acceso a áreas que no son beneficiosas para el SEO de WordPress o que contienen información sensible.

El contenido del default virtual robots.txt proporcionado por WordPress se parece a esto:

Captura de pantalla del archivo virtual predeterminado de WordPress robots.txt.
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Esto es lo que significan estas reglas predeterminadas:

  • User-agent: *: Esta línea aplica las reglas a todos los web crawlers y bots, indicados con un asterisco (*).
  • Disallow: /wp-admin/: Indica a los bots que no rastreen el área administrativa de WordPress. Este directorio no es necesario para la indexación de motores de búsqueda y contiene información privada.
  • Allow: /wp-admin/admin-ajax.php: Aunque el directorio wp-admin no está permitido, esta línea permite explícitamente a los bots acceder al archivo admin-ajax.php. Se usa para procesar solicitudes asíncronas en el front end, incluso si se originan desde el área de administración.

IMPORTANTE: Ten en cuenta que si creas un archivo robots.txt físico en la carpeta raíz de tu sitio de WordPress, anulará el robots.txt virtual que WordPress genera por defecto.

Impacto del archivo robots.txt en SEO

El archivo robots.txt juega un papel crucial en el SEO de los sitios WordPress, guiando a los motores de búsqueda sobre cómo rastrear el contenido. Un archivo WordPress robots.txt configurado correctamente asegura que sólo las páginas clave serán rastreadas, mejorando su presencia en los resultados de los motores de búsqueda.

Si bien el archivo robots.txt no afecta directamente a la clasificación o la velocidad de la página, sí influye en qué páginas web son indexadas. Los propietarios de sitios pueden usarlo en combinación con el meta tag robots para evitar que los motores de búsqueda indexen páginas específicas de WordPress o secciones.

Además, al controlar el tráfico de rastreo, robots.txt puede ayudar a mantener el rendimiento del sitio. Además, indirectamente es compatible con Core Web Vitals – un conjunto de métricas que miden la experiencia del usuario de las páginas web e influye en el SEO. Para obtener información detallada, lee esta guía completa sobre Core Web Vitals.

Cómo localizar el archivo WordPress robots.txt

WordPress tiene un archivo robots txt por defecto que es virtual y no está presente en el directorio raíz de tu sitio web. Esto significa que no puedes acceder usando un Administrador de Archivos o cliente FTP.

Sin embargo, puedes verlo accediendo a una URL similar en tu navegador web.

https://tudominio.com/robots.txt

Si prefieres establecer tus propias reglas para los rastreadores web, puedes crear un archivo físico robots.txt.

Una vez que subas este archivo físico al directorio raíz de tu sitio, reemplazará al virtual que genera WordPress.

Accediendo a través del plugin Yoast SEO

Usar un plugin simplifica el proceso de administrar tu archivo robots.txt. Este método es más accesible para los propietarios de sitios que pueden no ser tan expertos en tecnología o que prefieren un enfoque centralizado para el SEO de su sitio.

Puedes crear y acceder a tu archivo robots.txt usando Yoast SEO. Para hacerlo, sigue los pasos a continuación.

  1. Accede a tu panel de WordPress.
  2. Instala y activa el plugin desde Plugins > Añadir nuevo.
    Guía paso a paso sobre cómo instalar el plugin Yoast SEO en WordPress.

  3. Navega a Yoast SEO > Herramientas y haz clic en Editor de Archivos.
    Navegando al editor de archivos de Yoast SEO para crear un archivo robots.txt en el panel de WordPress.
  4. Crear archivo robots.txt usando el botón.
    Crear un archivo robots.txt de WordPress usando el plugin Yoast SEO.
  5. Edita el archivo y Guarda los cambios.
    Guardando actualizaciones en el archivo robots.txt de WordPress en Yoast SEO.

NOTA: Si no ves el Editor de Archivos en la sección de Herramientas de Yoast SEO, comprueba si hay alguno plugin de seguridad puede estar bloqueando la función.

Cómo Crear y Editar un Archivo Robots.txt en WordPress

El archivo robots.txt es un archivo de texto simple (.txt) utilizado por los sitios de WordPress para guiar el rastreo de los agentes de usuario. Si quieres personalizar las directivas del archivo virtual predeterminado robots.txt, puedes crear tu propio archivo manualmente.

Ten en cuenta que el robots.txt que crees anulará el archivo virtual de WordPress.

Para crear tu archivo robots.txt manualmente, sigue los pasos a continuación:

  1. Crea un archivo de texto plano usando cualquier editor de texto, por ejemplo, Notepad. O simplemente accede a tu Administrador de Archivos de tu cuenta de hosting de WordPress para usar su función de edición de archivos.
  2. Localiza la carpeta raíz de tu sitio (public_html) y crea un archivo haciendo clic en el botón Nuevo archivo.
    Crear un nuevo archivo en la interfaz del administrador de archivos del hosting de WordPress.
  3. Nombra el archivo robots.txt y guárdalo.
  4. Edita el archivo robots.
    Editando el archivo robots.txt de WordPress directamente en el administrador de archivos.
  5. En el archivo vacío, pega estas instrucciones:
    Pegando las reglas actualizadas de robots.txt en el editor de archivos y guardando.
User-agent: *
Disallow:

Una vez que estés listo, podrás editar el archivo robots.txt de tu alojamiento de WordPress desde la misma ruta del directorio. Alternativamente, puedes usar una conexión FTP para editar el archivo robots.txt.

Cómo usar el archivo Robots.txt en un sitio WordPress – Buenas Prácticas

Dominar tu archivo robots.txt es un paso crucial para el SEO de WordPress. En esta parte, veremos las mejores prácticas que pueden usar los bots de búsqueda de forma efectiva. Implementarlos para mejorar la presencia de tu sitio en el index de Google.

Quédate con nosotros para aprender cómo el movimiento correcto de robots.txt puede mejorar el rendimiento de búsqueda.

Permitir acceso completo a los bots de los motores de búsqueda

Permitir a los bots de los motores de búsqueda acceso completo al archivo robots.txt asegura que puedan explorar e indexar cada parte de tu sitio web. Esto puede mejorar la visibilidad y la capacidad de búsqueda de tu sitio. El acceso completo ayuda a los motores de búsqueda a comprender la estructura y el contenido de tu sitio, lo que puede llevar a una mejor clasificación y más tráfico.

Si quieres permitir que los motores de búsqueda indexen todas las páginas de tu sitio, añade la siguiente regla a tu robots.txt:

User-agent: *
Allow: /

O

User-agent: *
Disallow:

Permitir el acceso a un archivo en particular en una carpeta no permitida

En caso de que quieras permitir que los bots accedan a un archivo específico en una carpeta no permitida, usa un fragmento similar.

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

En el ejemplo, estamos permitiendo que los bots rastreen el admin-ajax.php, ubicado en el directorio wp-admin.

Restringir los bots de rastrear los resultados de búsqueda de WordPress

Para mantener tu sitio WordPress optimizado para el SEO, es aconsejable evitar que los bots rastreen los resultados de búsqueda de WordPress. Estas páginas pueden crear contenido duplicado y consumir tu presupuesto de rastreo, ofreciendo poco o ningún valor para tus rankings de búsqueda.

User-agent: *
Disallow: /?s=

Esta directiva asegura que el tiempo y los recursos de los robots de búsqueda se gasten en rastrear el contenido principal de tu sitio, no los resultados de búsqueda transitorios.

Bloquear el acceso de los rastreadores de los motores de búsqueda a todo tu sitio

Si quieres evitar que los rastreadores de los motores de búsqueda indexen tu sitio, usa el siguiente código.

User-agent: *
Disallow: /

La línea “Disallow: /” le dice a los bots que no tienen permiso para acceder a ninguna parte del sitio web. La barra inclinada (/) representa el directorio raíz del sitio y todo lo que hay después, que es esencialmente el sitio completo.

Bloquear un User Agent específico para que no rastree tu sitio web WordPress

Puede haber ocasiones en las que quieras evitar que un bot específico rastree tu sitio. Cada user agent accede a tu web con la intención de indexar contenido.

Sin embargo, algunos bots pueden estar consumiendo demasiados recursos del servidor. Además, hay bots maliciosos que tienen como objetivo raspar tu contenido o buscar vulnerabilidades para atacar.

Por lo tanto, es mejor bloquear el acceso de los bots usando el código a continuación en tu archivo robots.txt.

User-agent: MJ12bot
Disallow: /

Ten en cuenta que si estás planeando bloquear más de un user-agent, la mejor práctica es usar una regla disallow separada para cada uno en el robots.txt. Esa regla debería incluir el nombre del user-agent y el directorio disallowed.

¿Deberías bloquear los bots de IA?

Muchos propietarios de sitios de WordPress prefieren bloquear que los bots de IA usen su contenido para proteger la propiedad intelectual y minimizar los riesgos de seguridad. Sin embargo, permitir ciertos bots de IA puede ser beneficioso para el reconocimiento de tu marca. Especialmente si estás vendiendo un producto o servicio que la IA puede mencionar o recomendar en la búsqueda de un usuario.

Impedir el acceso a una carpeta o archivo específico

Cuando quieras restringir el acceso de bots a páginas o archivos específicos, suelta otra línea Disallow en robots.txt, especificando la ruta del archivo/carpeta.

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-login.php

Los propietarios de sitios bloquean páginas o archivos específicos para mantener el contenido sensible o no esencial fuera de los resultados de búsqueda. Este enfoque enfocado conserva el ancho de banda y aumenta el SEO al resaltar las áreas más importantes del sitio.

Especifica la ubicación de tu Sitemap XML para motores de búsqueda

Dirige los motores de búsqueda al blueprint de tu sitio web especificando la ubicación de tu sitemap en tu archivo robots.txt. Esto ayuda a los motores de búsqueda como Google a encontrar y usar tu sitemap para indexar tu sitio de forma más rápida y eficiente. Simplemente añade una línea como la que se muestra a continuación, especificando la ubicación de tu sitemap.xml

User-agent: *
Disallow: /wp-admin/
Permitir: /wp-admin/admin-ajax.php

Sitemap: https://testsgdomain.com/wp-sitemap.xml
Ejemplo de entrada de sitemap incluida en un archivo robots.txt de WordPress.

También puedes incluir múltiples sitemaps en tu robots.txt para ayudar a los motores de búsqueda a indexar diferentes áreas de contenido en tu sitio. Añade líneas como Sitemap: http://www.tudominio.com/sitemap-posts.xml y Sitemap: http://www.tudominio.com/sitemap-pages.xml. Esto proporciona un índice claro de tu contenido para un rastreo más efectivo.

Google Crawl Delay Limit (Deprecated)

La directiva Crawl-Delay en un archivo robots.txt era una forma de decirle a los robots de Google que esperaran un número específico de segundos entre cada solicitud de página que hacen a tu sitio web. Este retraso fue pensado para reducir la carga en los recursos de tu servidor web.

Si bien el Limitador de frecuencia de rastreo (obsoleto el 8 de enero de 2024) ya no está disponible, Googlebot todavía puede ajustar automáticamente su frecuencia de rastreo, en función de las respuestas del servidor. Si te preocupa la tasa de rastreo, puedes centrarte en optimizar tu sitio web para un rastreo eficiente.

Probar y solucionar problemas de tu archivo WordPress robots.txt

Tu archivo WordPress robots.txt navega rápidamente por los motores de búsqueda. Por lo tanto, debes asegurarte de que tu sitio sea accesible y que los robots entiendan lo que pueden ver y lo que está prohibido. Además, Googlebot necesita poder obtener tu archivo robots.txt con éxito para una mejor indexación.

Puedes probar si tu WordPress robots.txt es accesible escribiendo la URL https://www.tudominio.com/robots.txt en el navegador. Otra opción es hacer una solicitud Curl al archivo desde tu Terminal, como se muestra en la siguiente captura de pantalla.

Demostración de una solicitud CURL para probar un archivo robots.txt de WordPress.

Para verificar que los agentes de usuario pueden procesar tu robots.txt, pruébalo con Google robots.txt tester. Además de buscar tu archivo, la herramienta te muestra si hay algún problema con él. Los pasos son los siguientes:

  1. Inicia sesión en tu cuenta de Google Search Console haciendo clic en el botón Inicio Aho.
    Acceder a Google Search Console para el análisis del sitio web.
  2. Navega a Configuración y desplázate hacia abajo hasta Abrir informe para tu robots.txt.
    Accediendo a la configuración de robots.txt en Google Search Console.
  3. Comprueba si tu WordPress robots.txt del sitio en particular de tu lista es Fetched y si Google Search Console detecta algún problema con él.
    Página de informes de Google Search Console que muestra el análisis de robots.txt.

  4. Haz clic en el archivo para comprobar cómo Google lee tu robots.txt.
    Mensaje de confirmación de Google robots.txt fetch ejecutado con éxito.

Solución de problemas WordPress robots.txt

Al solucionar problemas de tu WordPress robots.txt, asegúrate de que los robots de búsqueda no sean excluidos inadvertidamente del contenido esencial. Un archivo robots.txt demasiado restrictivo puede hacer que páginas importantes pasen desapercibidas. Google Search Console puede mostrarte si has bloqueado algo importante.

  • Asegúrate de que tu robots.txt sintaxis es correcta para evitar problemas de procesamiento de archivos debido a reglas incorrectas.
  • Comprueba si el archivo WordPress robots.txt permite el acceso a recursos clave como CSS e imágenes, que son críticos para la presentación del sitio.
  • Las directivas deben ser precisas, apuntando solo a los bots previstos para evitar malentendidos.
  • Además, con el predominio de la navegación móvil, confirma que tu configuración de robots.txt está optimizada para rastreadores móviles.

¡Mantén un ojo en él, y estarás listo!

Conclusión

Para finalizar, recuerda que las directivas user-agent en tu archivo WordPress robots.txt guían a los bots de los motores de búsqueda a través de tu sitio. Las instrucciones predeterminadas se ajustan a las necesidades de la mayoría de los sitios de WordPress. Sin embargo, puedes adaptarlas para optimizar la forma en que los motores de búsqueda interactúan con tu contenido.

Asegúrate de que tu robots.txt está limpio, permite el acceso a tus sitemaps, y solo restringe las áreas que deben permanecer privadas. Con estos pasos, te asegurarás de que tu sitio se rastrea de manera efectiva para una mejor visibilidad y rendimiento de SEO.

Comparte este artículo