Robots.txt es uno de los ficheros más simples de un sitio mas también uno de los más fáciles de arruinar. Sólo un fallo de tipeo puede causar estragos en tu posicionamiento SEO y evitar que los motores de búsqueda accedan al contenido importante en tu sitio.
Esta es la razón por la que los errores de configuración de robots.txt son extremadamente comunes, incluso entre los profesionales posicionamiento SEO con experiencia.
En esta guía aprenderás:
Un archivo robots.txt le dice a los motores de búsqueda por dónde pueden y por donde no pueden ir en tu lugar.
En primer lugar, enumera todo el contenido que deseas bloquear de los motores de búsqueda como Google. También le puedes señalar a algunos motores de búsqueda (no a Google)
cómopueden rastrear el contenido accesible.
La mayoría de los motores de búsqueda son obedientes. No tienen el hábito de ignorar una restricción. Dicho esto, algunos no son tímidos en el momento de obviar dichas limitaciones.
Google no es uno de esos motores de búsqueda, obedece las instrucciones de un archivo robots.txt.
Sólo tienes que saber que ciertos motores de búsqueda lo ignoran por completo.
Este es el formato básico de un archivo robots.txt:
Si nunca has visto uno de estos archivos ya antes puede parecer desmoralizador. No obstante, la sintaxis es bastante simple. En resumen, debes asignar reglas a los robots indicando su
user-agentseguido de las
directivas.
Exploremos estos 2 componentes con más detalle.
Cada motor de búsqueda se identifica con un user-agent diferente. Puedes establecer instrucciones adaptadas para cada uno de ellos en el archivo robots.txt. Hay, mas aquí existen algunos útiles en relación al SEO:
Todos los usuario-agents distinguen entre mayúsculas y minúsculas en robots.txt.
También puedes emplear el asterisco (*) para asignar directivas a todos los user-agents.
Por ejemplo, pongamos que deseas bloquear todos y cada uno de los bots excepto Googlebot a fin de que no rastree tu sitio. Así es como lo harías:
Tienes que saber que tu archivo robots.txt puede incluir directivas para tantos usuario-agents como desees. Dicho esto, cada vez que declares un nuevo user-agent, éste ignorará las directivas declaradas previamente para otros user-agents. En otras palabras, si añades directivas para múltiples user-agents, las directivas declaradas para el primer usuario-agent no se aplicarán al segundo, o bien al tercero, o bien al cuarto, y así consecutivamente.
La excepción a esta regla es cuando se declara exactamente el mismo usuario-agent más de una vez. En un caso así, se combinan y se cumplen todas las directivas pertinentes.
Los rastreadores sólo siguen las reglas declaradas bajo el (los) user-agent(s) que
se se aplican a ellos de la forma más específica posible. Es por eso que el fichero robots.txt bloquea a todos y cada uno de los bots salvo a Googlebot (y a otros robots de Google) para que no puedan rastrear el lugar, Googlebot ignora la declaración de usuario-agent menos específica.
Las directivas son las reglas que deseas que los user-agents declarados prosigan.
Aquí están las directivas que Google admite en nuestros días, junto con sus usos.
Utiliza esta directiva para indicar a los motores de búsqueda que no accedan a archivos y páginas que se encuentren bajo una ruta específica. Por poner un ejemplo, si quieres bloquear el acceso de todos los motores de búsqueda a tu blog y a todos sus mensajes, el archivo robots.txt puede verse así:
Si no defines una ruta después de la directiva disallow, los motores de búsqueda la ignorarán.
Utiliza esta directiva para permitir a los motores de búsqueda rastrear un subdirectorio o una página, aun en un directorio que de otra manera no estaría tolerado. Por poner un ejemplo, si quieres eludir que los motores de búsqueda accedan a todas y cada una de las entradas de tu weblog excepto a una, el fichero robots.txt puede tener este aspecto:
En este caso de ejemplo, los motores de búsqueda pueden acceder a:
/blog/post-permitido
. Pero no pueden acceder a:
/blog/otro-post
/blog/y-otro-post
/blog/descarga.pdf
Tanto Google como Bing aceptan esta directiva.
Al igual que con la directiva disallow, si no defines una senda después de la directiva allow, los motores de búsqueda la ignorarán.
nota sobre reglas conflictivas
A menos que seas cauteloso, las directivas allow y disallow pueden fácilmente entrar en conflicto entre sí. En el próximo ejemplo no se le permite el acceso a
/blog/
y se deja el acceso a
/blog
.
En este caso, la URL
/blog/post-title/
parece tener las dos directivas. Entonces ¿cuál gana?
Para Google y Bing, la regla es que gana la directiva con más caracteres. Esa es la directiva disallow.
Disallow: /blog/
(seis caracteres)
Allow: /blog
(5 caracteres)
Si las directivas allow y disallow tienen exactamente la misma longitud, entonces gana la directiva menos restrictiva. En este caso, esa sería la directiva allow.
Aquí,
/blog
(sin la barra) sigue siendo accesible y rastreable.
Es importante mencionar que
esto sólo aplica para el caso de Google y Bing. Otros motores de búsqueda obedecen a la primera directiva coincidente. En este caso sería disallow.
Utiliza esta directiva para precisar la ubicación de tu(s) sitemap(s) en los motores de búsqueda. Si no estás familiarizado con los sitemaps, normalmente incluyen las páginas que deseas que los motores de búsqueda rastreen y también indexen.
A continuación se muestra un ejemplo de un archivo robots.txt que emplea la directiva sitemap:
¿Qué relevancia tiene incluir tu(s) sitemap(s) en tu archivo robots.txt? Si ya lo has mandado a través de Search Console entonces es algo redundante para Google. No obstante, le dicen a otros motores de búsqueda como Bing dónde encontrar tu sitemap, con lo que prosigue siendo una buena práctica.
Ten en cuenta que no es preciso reiterar la directiva sitemap múltiples veces para cada usuario-agent, éste aplica para todos. Por consiguiente, lo mejor es incluir las directivas del sitemap al comienzo o al final del archivo robots.txt. Por ejemplo:
Googlela directiva sitemap, así como Ask, Bing, y Yahoo.
Puedes incluir tantos sitemaps como desees en tu fichero robots.txt.
Estas son las directivas que—algunas de las cuales jamás lo fueron, técnicamente.
Anteriormente podías usar esta directiva para concretar un difiero del rastreo en segundos. Por ejemplo, si quisieras que Googlebot espere cinco segundos después de cada acción de rastreo, debías establecer el difiero de rastreo en 5:
Google ya no admite esta directiva peroysí.
Dicho esto, ten cuidado al establecer esta directiva, en especial si tienes un sitio grande. Si estableces un retardo de rastreo de 5 segundos, entonces estarás limitando a los bots a rastrear un máximo de 17.280 URLs al día. Eso no es muy útil si tienes millones de páginas, pero podría ahorrar ancho de banda si tienes un sitio pequeño.
Esta directiva jamás fue apoyada oficialmente por Google. No obstante, hasta hace poco, se pensaba que Google tenía algún “código que maneja reglas no aceptadas y no publicadas (como el noindex)”. Así que si quieres eludir que Google indexe todas y cada una de las entradas de tu blog, puedes emplear la próxima directiva:
Sin embargo, el 1 de septiembre de 2019, Google dejó claro que
esta directiva no está admitida. Si deseas excluir una página o bien un archivo de los motores de búsqueda, usa en su sitio la etiqueta meta robots o el encabezado HTTP x‑robots.
Esta es otra directiva que Google nunca apoyó oficialmente y fue utilizada para apuntar a los motores de búsqueda que no siguieran links en páginas y ficheros bajo una senda específica. Por poner un ejemplo, si deseas evitar que Google siga todos y cada uno de los links de tu weblog, puedes utilizar la siguiente directiva:
Google anunció que esta directiva no tiene soporte oficial desde el 1 de septiembre de 2019. Si quieres no seguir todos y cada uno de los enlaces de una página ahora, debes utilizar la meta tag robots o el encabezado x‑robots. Si quieres indicar a Google que no siga enlaces específicos de una página, utiliza el atributo de link rel=“nofollow”.
Tener un fichero robots.txt no es crucial para muchos sitios web, en especial para los más pequeños.
Dicho esto, precio posicionamiento web ourense ninguna buena razón para no tener uno. Te dará más control sobre dónde los motores de búsqueda pueden y no pueden entrar en tu sitio, y esto podría ayudarte con cosas como:
Ten en cuenta que si bien Google no suele indexar las páginas web que están bloqueadas por robots.txt,
no hay forma de asegurar la exclusión en los resultados de búsqueda mediante el archivo robots.txt.
Como, si el contenido está enlazado desde otros lugares en la página web, puede llegar a aparecer en los resultados de búsqueda de Google.
Si ya tienes un archivo robots.txt en tu sitio web, podrás acceder a él a través de dominio.com/robots.txt. Navega hasta la URL de tu navegador. Si ves algo como esto, entonces tienes un archivo robots.txt:
Si aún no tienes un fichero robots.txt, crear uno es fácil. Simplemente abre un documento .txt en blanco y comienza a escribir directivas. Por ejemplo, si quieres impedir que todos y cada uno de los motores de búsqueda rastreen tu directorio
/admin/
se debería ver algo así:
Continúa redactando las directivas hasta el momento en que estés satisfecho con lo que tienes. Guarda tu fichero como “robots.txt”.
Alternativamente, también puedes usar un generador robots.txt como.
La ventaja de utilizar una herramienta como esta es que minimiza los errores de sintaxis. posicionamiento local seo es bueno porque un error podría resultar en una catástrofe posicionamiento SEO para tu sitio, por lo que vale la pena ir por el lado de la precaución.
La desventaja es que son algo limitados en términos de personalización.
Ubica el archivo robots.txt en el directorio raíz del subdominio al que se aplique. Por servirnos de un ejemplo, para supervisar el comportamiento de rastreo en un
dominio.com, el archivo robots.txt ha de estar alcanzable en
dominio.com/robots.txt.
Si deseas supervisar la rastreabilidad en un subdominio como
blog.dominio.com, el fichero robots.txt ha de estar alcanzable en
blog.dominio.com/robots.txt.
Tenlos en cuenta para eludir errores comunes.
Cada directiva debería ir en una nueva línea. De lo contrario confundirá a los motores de búsqueda.
Incorrecto:
Correcto:
No sólo puedes emplear asteriscos (*) para aplicar directivas a todos y cada uno de los user-agents sino más bien también a fin de que coincidan con los patrones de URL al declarar directivas. Por poner un ejemplo, si quieres evitar que los motores de búsqueda accedan a las URLs de las categorías de productos parametrizadas en tu sitio, puedes contarlas de la siguiente manera:
Pero no es muy eficaz. Sería mejor si simplificáramos las cosas con un asterisco, de la próxima manera:
Este ejemplo bloquea a los motores de búsqueda a fin de que no rastreen todas las URLs bajo la subcarpeta /productos/ que contengan un signo de interrogación. En otras palabras, cualquier URL parametrizada de la categoría “producto”.
Incluye el símbolo “$ ” para marcar el final de una URL. Por poner un ejemplo, si deseas eludir que los motores de búsqueda accedan a todos los ficheros .pdf de tu sitio, el fichero robots.txt debería verse así:
En este caso de ejemplo, los motores de búsqueda no pueden acceder a ninguna URL que concluya en.pdf. Esto significa que no pueden acceder a /archivo.pdf, pero pueden acceder a /archivo.pdf?id= pues no termina con “.pdf”.
A Google no le importa si detallas el mismo usuario-agent varias veces. Sencillamente combinará todas y cada una de las reglas de las distintas declaraciones en una sola y las seguirá todas. Por ejemplo, si tienes los siguientes usuario-agents y directivas en tu archivo robots.txt.…
… Googlebot
no dejaría de rastrearninguna de las 2 subcarpetas.
Dicho esto, tiene sentido declarar a cada user-agent sólo una vez por el hecho de que es menos confuso. En otras palabras, es menos probable que cometas errores críticos al sostener las cosas ordenadas y simples.
La falta de instrucciones específicas en el momento de establecer directivas puede dar lugar a errores fáciles que pueden tener un impacto catastrófico en el posicionamiento SEO. Por ejemplo, imaginemos que tienes un lugar multilingüe y que estás trabajando en una versión en alemán que estará libre en el subdirectorio /de/.
Debido a que no está listo para funcionar, quieres evitar que los motores de búsqueda accedan a él.
El fichero robots.txt que se muestra a continuación evitará que los motores de búsqueda accedan a esa subcarpeta y a todo cuanto contiene:
Pero también evitará que los motores de búsqueda rastreen páginas o bien ficheros que empiecen con
/de
.
Por ejemplo:
/decoracion/
/delivery-informacion.html
/depeche-mode/camisetas/
/definitivamente-no-para-ser-visto-en-publico.pdf
En este caso, la solución es simple: añadir una barra.
Los comentarios asisten a explicar el archivo robots.txt a los desarrolladores, e incluso potencialmente a tu futuro . Para incluir un comentario, empieza la línea con un numeral (#).
# Esto le señala a Bing que no rastree nuestro sitio.
Los rastreadores ignorarán todo cuanto haya en las líneas que comiencen con un numeral.
Robots.txt sólo controla el comportamiento de rastreo en el subdominio donde esté alojado. Si deseas supervisar el rastreo en un subdominio diferente, necesitarás un archivo robots.txt separado.
Por ejemplo, si tu sitio primordial se encuentra en dominio.com y tu blog en weblog.dominio.com, necesitarás dos ficheros robots.txt. Uno debe ir en el directorio raíz del dominio principal, y el otro en el directorio raíz del weblog.
A continuación se muestran ciertos ejemplos de archivos robots.txt. posicionament web andorra inspirarse, pero si uno de ellos se ajusta a tus necesidades, cópialo y pégalo en un documento de texto, guárdalo como “robots.txt” y cárgalo en el directorio apropiado.
Si no se declara una URL después de una directiva, ésta se vuelve redundante. En otras palabras, los motores de búsqueda lo ignoran. De ahí que que esta directiva no tiene ningún efecto en el sitio; los motores de búsqueda todavía pueden rastrear todas y cada una de las páginas y ficheros.
Los fallos de robots.txt se pueden deslizar por la red con bastante facilidad, con lo que merece la pena estar al loro a los problemas.
Para hacerlo, busca regularmente cuestiones relacionadas al robots.txt en el reporte de “Cobertura” de. Aquí debajo tienes ciertos fallos que podrías ver, qué significan y cómo podrías solucionarlos.
¿Necesitas buscar errores en una página determinada?
Pega la URL en la herramienta de inspección de URLs de Google en Search Console. Si está bloqueado por robots.txt, deberías ver algo como esto:
Esto significa que al menos una de las URL de los sitemaps presentados está bloqueada por robots.txt.
Si túy excluiste páginas, noindexadas, y, entonces
ninguna página presentada debería ser bloqueada por robots.txt. Si es así, estudia qué páginas están perjudicadas y a continuación ajusta el archivo robots.txt en consecuencia para quitar el bloqueo de esa página.
Puedes emplear elpara ver qué directiva bloquea el contenido. Sólo ten cuidado al hacer esto, es fácil cometer errores que afectan a otras páginas y archivos.
Esto significa que tienes contenido bloqueado por robots.txt que no está indizado hoy en día en Google.
Si este contenido es esencial y debe ser indizado, suprime el bloqueo de rastreo en robots.txt. Si has bloqueado contenido en robots.txt con la intención de excluirlo del índice de Google, suprime el bloqueo y emplea una meta etiqueta de robots o bien un encabezado x‑robots. Esa es la única manera de garantizar la exclusión de contenido del índice de Google.
Es esencial quitar el bloqueo de rastreo cuando se procura excluir una página de los resultados de la búsqueda. Si no lo haces, Google no verá la etiqueta noindex ni el encabezado HTTP, por lo que permanecerá indizada.
Esto significa que una parte del contenido bloqueado por robots.txt prosigue estando indexado en Google.
Una vez más, si estás procurando excluir este contenido de los resultados de búsqueda de Google, robots.txt no es la solución correcta. Quita el bloqueo de rastreo y en su sitio usa unapara prevenir la indexación.
Si has bloqueado este contenido por accidente y quieres mantenerlo en el índice de Google, suprime el bloqueo del rastreo en robots.txt. Esto puede asistir a progresar la visibilidad del contenido en la búsqueda de Google.
Aquí están algunas de las preguntas más frecuentes que no encajaban de forma natural en otra parte de nuestra guía: haznos saber en los comentarios si falta algo, y actualizaremos la sección en consecuencia.
(aproximadamente).
En el mismo lugar:
dominio.com/robots.txt.
De forma manual o bien utilizandocomo Yoast que te permite editar robots.txt desde el backend de WordPress.
Google jamás verá la directiva noindex por el hecho de que no puede rastrear la página.
“¿Sabías que bloquear una página con un robots.txt disallow y un noindex en la página no tiene mucho sentido por el hecho de que Googlebot no puede “ver” el noindex?”
Robots.txt es un fichero simple pero poderoso. Utilízalo sabiamente, y puede tener un impacto positivo en el posicionamiento web. Úsalo al azar y, bueno, vivirás para arrepentirte.
¿Tienes más preguntas? Deja un comentario o bien.