Cómo usar WordPress robots.txt (Buenas Prácticas y Ejemplos)
Este tutorial abarca los siguientes temas:
El archivo WordPress robots.txt es esencial para mejorar el SEO de tu página. Comprender y configurar correctamente un archivo robots ayuda a los motores de búsqueda a interactuar mejor con tu sitio web de WordPress.
En este artículo, te guiaremos a través de las mejores prácticas y proporcionaremos ejemplos para asegurar que los motores de búsqueda rastreen tu contenido de manera efectiva. Centrarse en áreas clave puede mejorar el rendimiento de tu sitio y visibilidad en los resultados de búsqueda.
WordPress viene con una función que genera un archivo robots.txt dinámicamente – este no es un archivo físico almacenado en tu servidor. Esto significa que WordPress crea automáticamente un archivo virtual tras una solicitud de rastreo de un bot de un motor de búsqueda.
Bloquear el rastreo de una página en robots.txt no significa explícitamente que Google no la indexará si hay otras páginas que enlazan a ella. Además, Google recomienda usar otros métodos (como “nofollow“) para restringir el rastreo de la página.
¿Qué hay dentro del archivo robots.txt?
El archivo robots.txt predeterminado generado por WordPress está diseñado para permitir que los bots de los motores de búsqueda rastreen la mayor parte de tu sitio web. Al mismo tiempo, restringe el acceso a áreas que no son beneficiosas para el SEO de WordPress o que contienen información sensible.
El contenido del default virtual robots.txt proporcionado por WordPress se parece a esto:
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Esto es lo que significan estas reglas predeterminadas:
- User-agent: *: Esta línea aplica las reglas a todos los web crawlers y bots, indicados con un asterisco (*).
- Disallow: /wp-admin/: Indica a los bots que no rastreen el área administrativa de WordPress. Este directorio no es necesario para la indexación de motores de búsqueda y contiene información privada.
- Allow: /wp-admin/admin-ajax.php: Aunque el directorio wp-admin no está permitido, esta línea permite explícitamente a los bots acceder al archivo admin-ajax.php. Se usa para procesar solicitudes asíncronas en el front end, incluso si se originan desde el área de administración.
Impacto del archivo robots.txt en SEO
El archivo robots.txt juega un papel crucial en el SEO de los sitios WordPress, guiando a los motores de búsqueda sobre cómo rastrear el contenido. Un archivo WordPress robots.txt configurado correctamente asegura que sólo las páginas clave serán rastreadas, mejorando su presencia en los resultados de los motores de búsqueda.
Si bien el archivo robots.txt no afecta directamente a la clasificación o la velocidad de la página, sí influye en qué páginas web son indexadas. Los propietarios de sitios pueden usarlo en combinación con el meta tag robots para evitar que los motores de búsqueda indexen páginas específicas de WordPress o secciones.
Además, al controlar el tráfico de rastreo, robots.txt puede ayudar a mantener el rendimiento del sitio. Además, indirectamente es compatible con Core Web Vitals – un conjunto de métricas que miden la experiencia del usuario de las páginas web e influye en el SEO. Para obtener información detallada, lee esta guía completa sobre Core Web Vitals.
Cómo localizar el archivo WordPress robots.txt
WordPress tiene un archivo robots txt por defecto que es virtual y no está presente en el directorio raíz de tu sitio web. Esto significa que no puedes acceder usando un Administrador de Archivos o cliente FTP.
Sin embargo, puedes verlo accediendo a una URL similar en tu navegador web.
https://tudominio.com/robots.txt
Si prefieres establecer tus propias reglas para los rastreadores web, puedes crear un archivo físico robots.txt.
Una vez que subas este archivo físico al directorio raíz de tu sitio, reemplazará al virtual que genera WordPress.
Accediendo a través del plugin Yoast SEO
Usar un plugin simplifica el proceso de administrar tu archivo robots.txt. Este método es más accesible para los propietarios de sitios que pueden no ser tan expertos en tecnología o que prefieren un enfoque centralizado para el SEO de su sitio.
Puedes crear y acceder a tu archivo robots.txt usando Yoast SEO. Para hacerlo, sigue los pasos a continuación.
- Accede a tu panel de WordPress.
- Instala y activa el plugin desde Plugins > Añadir nuevo.
- Navega a Yoast SEO > Herramientas y haz clic en Editor de Archivos.
- Crear archivo robots.txt usando el botón.
- Edita el archivo y Guarda los cambios.
Cómo Crear y Editar un Archivo Robots.txt en WordPress
El archivo robots.txt es un archivo de texto simple (.txt) utilizado por los sitios de WordPress para guiar el rastreo de los agentes de usuario. Si quieres personalizar las directivas del archivo virtual predeterminado robots.txt, puedes crear tu propio archivo manualmente.
Ten en cuenta que el robots.txt que crees anulará el archivo virtual de WordPress.
Para crear tu archivo robots.txt manualmente, sigue los pasos a continuación:
- Crea un archivo de texto plano usando cualquier editor de texto, por ejemplo, Notepad. O simplemente accede a tu Administrador de Archivos de tu cuenta de hosting de WordPress para usar su función de edición de archivos.
- Localiza la carpeta raíz de tu sitio (public_html) y crea un archivo haciendo clic en el botón Nuevo archivo.
- Nombra el archivo robots.txt y guárdalo.
- Edita el archivo robots.
- En el archivo vacío, pega estas instrucciones:
User-agent: *
Disallow:
Una vez que estés listo, podrás editar el archivo robots.txt de tu alojamiento de WordPress desde la misma ruta del directorio. Alternativamente, puedes usar una conexión FTP para editar el archivo robots.txt.
Cómo usar el archivo Robots.txt en un sitio WordPress – Buenas Prácticas
Dominar tu archivo robots.txt es un paso crucial para el SEO de WordPress. En esta parte, veremos las mejores prácticas que pueden usar los bots de búsqueda de forma efectiva. Implementarlos para mejorar la presencia de tu sitio en el index de Google.
Quédate con nosotros para aprender cómo el movimiento correcto de robots.txt puede mejorar el rendimiento de búsqueda.
Permitir acceso completo a los bots de los motores de búsqueda
Permitir a los bots de los motores de búsqueda acceso completo al archivo robots.txt asegura que puedan explorar e indexar cada parte de tu sitio web. Esto puede mejorar la visibilidad y la capacidad de búsqueda de tu sitio. El acceso completo ayuda a los motores de búsqueda a comprender la estructura y el contenido de tu sitio, lo que puede llevar a una mejor clasificación y más tráfico.
Si quieres permitir que los motores de búsqueda indexen todas las páginas de tu sitio, añade la siguiente regla a tu robots.txt:
User-agent: *
Allow: /
O
User-agent: *
Disallow:
Permitir el acceso a un archivo en particular en una carpeta no permitida
En caso de que quieras permitir que los bots accedan a un archivo específico en una carpeta no permitida, usa un fragmento similar.
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
En el ejemplo, estamos permitiendo que los bots rastreen el admin-ajax.php, ubicado en el directorio wp-admin.
Restringir los bots de rastrear los resultados de búsqueda de WordPress
Para mantener tu sitio WordPress optimizado para el SEO, es aconsejable evitar que los bots rastreen los resultados de búsqueda de WordPress. Estas páginas pueden crear contenido duplicado y consumir tu presupuesto de rastreo, ofreciendo poco o ningún valor para tus rankings de búsqueda.
User-agent: *
Disallow: /?s=
Esta directiva asegura que el tiempo y los recursos de los robots de búsqueda se gasten en rastrear el contenido principal de tu sitio, no los resultados de búsqueda transitorios.
Bloquear el acceso de los rastreadores de los motores de búsqueda a todo tu sitio
Si quieres evitar que los rastreadores de los motores de búsqueda indexen tu sitio, usa el siguiente código.
User-agent: *
Disallow: /
La línea “Disallow: /” le dice a los bots que no tienen permiso para acceder a ninguna parte del sitio web. La barra inclinada (/) representa el directorio raíz del sitio y todo lo que hay después, que es esencialmente el sitio completo.
Bloquear un User Agent específico para que no rastree tu sitio web WordPress
Puede haber ocasiones en las que quieras evitar que un bot específico rastree tu sitio. Cada user agent accede a tu web con la intención de indexar contenido.
Sin embargo, algunos bots pueden estar consumiendo demasiados recursos del servidor. Además, hay bots maliciosos que tienen como objetivo raspar tu contenido o buscar vulnerabilidades para atacar.
Por lo tanto, es mejor bloquear el acceso de los bots usando el código a continuación en tu archivo robots.txt.
User-agent: MJ12bot
Disallow: /
Ten en cuenta que si estás planeando bloquear más de un user-agent, la mejor práctica es usar una regla disallow separada para cada uno en el robots.txt. Esa regla debería incluir el nombre del user-agent y el directorio disallowed.
Impedir el acceso a una carpeta o archivo específico
Cuando quieras restringir el acceso de bots a páginas o archivos específicos, suelta otra línea Disallow en robots.txt, especificando la ruta del archivo/carpeta.
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-login.php
Los propietarios de sitios bloquean páginas o archivos específicos para mantener el contenido sensible o no esencial fuera de los resultados de búsqueda. Este enfoque enfocado conserva el ancho de banda y aumenta el SEO al resaltar las áreas más importantes del sitio.
Especifica la ubicación de tu Sitemap XML para motores de búsqueda
Dirige los motores de búsqueda al blueprint de tu sitio web especificando la ubicación de tu sitemap en tu archivo robots.txt. Esto ayuda a los motores de búsqueda como Google a encontrar y usar tu sitemap para indexar tu sitio de forma más rápida y eficiente. Simplemente añade una línea como la que se muestra a continuación, especificando la ubicación de tu sitemap.xml
User-agent: *
Disallow: /wp-admin/
Permitir: /wp-admin/admin-ajax.php
Sitemap: https://testsgdomain.com/wp-sitemap.xml
También puedes incluir múltiples sitemaps en tu robots.txt para ayudar a los motores de búsqueda a indexar diferentes áreas de contenido en tu sitio. Añade líneas como Sitemap: http://www.tudominio.com/sitemap-posts.xml y Sitemap: http://www.tudominio.com/sitemap-pages.xml. Esto proporciona un índice claro de tu contenido para un rastreo más efectivo.
Probar y solucionar problemas de tu archivo WordPress robots.txt
Tu archivo WordPress robots.txt navega rápidamente por los motores de búsqueda. Por lo tanto, debes asegurarte de que tu sitio sea accesible y que los robots entiendan lo que pueden ver y lo que está prohibido. Además, Googlebot necesita poder obtener tu archivo robots.txt con éxito para una mejor indexación.
Puedes probar si tu WordPress robots.txt es accesible escribiendo la URL https://www.tudominio.com/robots.txt en el navegador. Otra opción es hacer una solicitud Curl al archivo desde tu Terminal, como se muestra en la siguiente captura de pantalla.
Para verificar que los agentes de usuario pueden procesar tu robots.txt, pruébalo con Google robots.txt tester. Además de buscar tu archivo, la herramienta te muestra si hay algún problema con él. Los pasos son los siguientes:
- Inicia sesión en tu cuenta de Google Search Console haciendo clic en el botón Inicio Aho.
- Navega a Configuración y desplázate hacia abajo hasta Abrir informe para tu robots.txt.
- Comprueba si tu WordPress robots.txt del sitio en particular de tu lista es Fetched y si Google Search Console detecta algún problema con él.
- Haz clic en el archivo para comprobar cómo Google lee tu robots.txt.
Solución de problemas WordPress robots.txt
Al solucionar problemas de tu WordPress robots.txt, asegúrate de que los robots de búsqueda no sean excluidos inadvertidamente del contenido esencial. Un archivo robots.txt demasiado restrictivo puede hacer que páginas importantes pasen desapercibidas. Google Search Console puede mostrarte si has bloqueado algo importante.
- Asegúrate de que tu robots.txt sintaxis es correcta para evitar problemas de procesamiento de archivos debido a reglas incorrectas.
- Comprueba si el archivo WordPress robots.txt permite el acceso a recursos clave como CSS e imágenes, que son críticos para la presentación del sitio.
- Las directivas deben ser precisas, apuntando solo a los bots previstos para evitar malentendidos.
- Además, con el predominio de la navegación móvil, confirma que tu configuración de robots.txt está optimizada para rastreadores móviles.
¡Mantén un ojo en él, y estarás listo!
Conclusión
Para finalizar, recuerda que las directivas user-agent en tu archivo WordPress robots.txt guían a los bots de los motores de búsqueda a través de tu sitio. Las instrucciones predeterminadas se ajustan a las necesidades de la mayoría de los sitios de WordPress. Sin embargo, puedes adaptarlas para optimizar la forma en que los motores de búsqueda interactúan con tu contenido.
Asegúrate de que tu robots.txt está limpio, permite el acceso a tus sitemaps, y solo restringe las áreas que deben permanecer privadas. Con estos pasos, te asegurarás de que tu sitio se rastrea de manera efectiva para una mejor visibilidad y rendimiento de SEO.