robots.txt, GPTBot y Schema.org: guía técnica GEO para empresas argentinas 🔧🤖
Podés tener el mejor contenido del mundo sobre tu empresa — si los rastreadores de ChatGPT y Perplexity están bloqueados en tu robots.txt, esa información nunca llega a los modelos de lenguaje. Y podés tener el robots.txt perfecto — si tu sitio no tiene datos estructurados Schema.org, las IAs no pueden entender con precisión qué hace tu empresa, dónde opera y a quién le sirve.
Esta es la guía técnica GEO que no existe en español argentino: qué son los rastreadores de IA, cómo configurar el robots.txt para habilitarlos, qué Schema.org implementar según tu rubro, y cómo verificar que las IAs pueden indexar tu contenido correctamente. Sin abstracciones — con el código exacto. 👇
¿Qué es GPTBot y por qué importa para el GEO?
Los rastreadores de IA funcionan de manera similar a Googlebot — visitan páginas web, leen el contenido y lo procesan para alimentar sus modelos. La diferencia es que Googlebot indexa para mostrar resultados en búsquedas, mientras que GPTBot y sus equivalentes indexan para que los modelos de lenguaje puedan generar respuestas informadas sobre el contenido de esos sitios.
Los rastreadores de IA más relevantes para el GEO en 2026 son:
| Rastreador | Plataforma | User-agent en robots.txt |
|---|---|---|
| GPTBot | ChatGPT / OpenAI | GPTBot |
| PerplexityBot | Perplexity AI | PerplexityBot |
| Google-Extended | Gemini / Google AI | Google-Extended |
| ClaudeBot | Claude / Anthropic | ClaudeBot |
| FacebookBot | Meta AI | FacebookBot |
El punto crítico: muchos plugins de seguridad y caché de WordPress bloquean por defecto todos los bots que no son Googlebot. Si instalaste un plugin como Wordfence, WP Rocket o Cloudflare sin revisar las reglas de rastreo, es probable que GPTBot y PerplexityBot estén bloqueados sin que lo hayas decidido explícitamente.
¿Cómo configurar robots.txt para habilitar los rastreadores de IA?
robots.txt antes de cualquier regla Disallow
global. En WordPress, el archivo está en la raíz del dominio:
tudominio.com/robots.txt.✅ Configuración robots.txt recomendada para GEO (WordPress):
# Googlebot — rastreador principal de Google
User-agent: Googlebot
Allow: /
# GPTBot — rastreador de ChatGPT / OpenAI
User-agent: GPTBot
Allow: /
# PerplexityBot — rastreador de Perplexity AI
User-agent: PerplexityBot
Allow: /
# Google-Extended — rastreador de Gemini / Google AI
User-agent: Google-Extended
Allow: /
# ClaudeBot — rastreador de Claude / Anthropic
User-agent: ClaudeBot
Allow: /
# Regla general para el resto de bots
User-agent: *
Allow: /
# Bloquear áreas administrativas (siempre)
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-login.php
Sitemap: https://tudominio.com/sitemap.xmlUser-agent: * seguido de Disallow: / (bloqueo total),
todos los bots incluyendo GPTBot y PerplexityBot quedan bloqueados.
Esto puede ocurrir cuando el sitio está en “modo mantenimiento” o cuando
la opción “desalentar a los motores de búsqueda” está activada en
Ajustes → Lectura de WordPress.
Para verificar tu robots.txt actual, abrí tudominio.com/robots.txt en el navegador. Si ves Disallow: / para todos los user-agents, necesitás corregirlo inmediatamente — no solo para las IAs sino también para Google.
¿Qué Schema.org implementar según el rubro de tu empresa?
| Rubro | Schema principal | Schema complementario |
|---|---|---|
| Empresa / agencia general | Organization | FAQPage, BreadcrumbList |
| Negocio con dirección física | LocalBusiness | OpeningHoursSpecification, GeoCoordinates |
| Clínicas / centros médicos | MedicalClinic | Physician, MedicalSpecialty |
| Médicos / profesionales de salud | Physician | MedicalSpecialty, FAQPage |
| Abogados / estudios jurídicos | LegalService | Attorney, FAQPage |
| Constructoras / desarrolladoras | ConstructionContractor | Organization, FAQPage |
| E-commerce / tiendas online | Store | Product, Offer, BreadcrumbList |
| Instituciones educativas | EducationalOrganization | Course, FAQPage |
| Hoteles / alojamientos | LodgingBusiness | Hotel, Room |
| Artículos de blog | Article | FAQPage, BreadcrumbList |
El Schema se implementa como un bloque <script type="application/ld+json"> en el <head> de cada página, o con plugins como Yoast SEO, RankMath o Schema Pro en WordPress. Lo importante no es solo que esté presente sino que esté completo: nombre de la empresa, descripción, dirección, especialidad, URL y los campos específicos de cada tipo de Schema. Un Schema vacío o incompleto no aporta más que no tener Schema.
Por qué el Schema FAQPage es la herramienta GEO más poderosa
Los modelos de lenguaje como ChatGPT y Gemini fueron entrenados con enormes volúmenes de texto en formato pregunta-respuesta. Cuando encuentran contenido estructurado en ese mismo formato — especialmente si está marcado explícitamente con Schema FAQPage — tienen una señal clara de que ese contenido es relevante para responder preguntas similares.
✅ Ejemplo de Schema FAQPage bien implementado:
<script type="application/ld+json">
{
"@context": "https://schema.org",
"@type": "FAQPage",
"mainEntity": [
{
"@type": "Question",
"name": "¿Qué servicios ofrece [nombre de tu empresa] en Argentina?",
"acceptedAnswer": {
"@type": "Answer",
"text": "Respuesta completa y específica que incluye el nombre de la empresa,
los servicios principales, la zona de operación y el perfil de cliente
al que apunta. Cuanto más específica, más útil para las IAs."
}
},
{
"@type": "Question",
"name": "¿Dónde está ubicada [nombre de tu empresa]?",
"acceptedAnswer": {
"@type": "Answer",
"text": "Dirección completa con ciudad, provincia y país. Si operás en todo el país
o en Latinoamérica, mencionarlo explícitamente."
}
}
]
}
</script>Las preguntas del FAQPage deben estar redactadas exactamente como las escribiría un cliente o un usuario en una búsqueda — no como las formularía internamente el equipo de la empresa. “¿Cuánto cuesta un rediseño web en Argentina?” es una pregunta FAQPage efectiva. “¿Cuáles son los alcances del servicio de rediseño?” no lo es — nadie busca eso.
¿Cómo verificar que las IAs están rastreando tu sitio?
chatgpt.com o
perplexity.ai aparecen como fuentes de tráfico referido en tu analítica,
y testear directamente en ChatGPT y Gemini preguntando por tu empresa o por tu rubro.- Revisá tu robots.txt — abrí
tudominio.com/robots.txty verificá que GPTBot, PerplexityBot y Google-Extended no estén bloqueados. - Verificá los logs del servidor — en cPanel o en tu hosting, buscá en los access logs entradas con
GPTBotoPerplexityBotcomo user-agent. Si aparecen, están rastreando. Si no aparecen, pueden estar bloqueados o todavía no te han rastreado. - Revisá tus fuentes de tráfico en Analytics — en Google Analytics 4 o en Microsoft Clarity, buscá
chatgpt.comoperplexity.aicomo fuente de tráfico referido. Si aparecen, las IAs están enviando usuarios a tu sitio — evidencia directa de que el contenido está siendo citado. - Testeá directamente en las IAs — preguntá en ChatGPT y Gemini por tu empresa y por tu rubro en tu zona. Lo que encuentres (o no encuentres) es tu diagnóstico real de visibilidad GEO.
- Usá el test de Schema.org — en validator.schema.org podés pegar la URL de cualquier página de tu sitio y ver qué datos estructurados están implementados y si tienen errores.
chatgpt.com
aparece como fuente de tráfico referido en tu analítica, significa que ChatGPT
está recomendando tu sitio activamente en sus respuestas.
Ese es el indicador más concreto de GEO funcionando — y lo documentamos
en el proyecto Growshop Planto,
donde chatgpt.com aparece como fuente verificada en Microsoft Clarity.Checklist técnico GEO completo para sitios WordPress en Argentina
| Ítem | Cómo verificarlo | Impacto GEO |
|---|---|---|
| GPTBot habilitado en robots.txt | tudominio.com/robots.txt | 🔴 Crítico |
| PerplexityBot habilitado en robots.txt | tudominio.com/robots.txt | 🔴 Crítico |
| Google-Extended habilitado en robots.txt | tudominio.com/robots.txt | 🔴 Crítico |
| Schema Organization o LocalBusiness implementado | validator.schema.org | 🔴 Crítico |
| Schema FAQPage en páginas principales | validator.schema.org | 🟠 Alto |
| Schema específico del rubro (MedicalClinic, LegalService, etc.) | validator.schema.org | 🟠 Alto |
| Nombre + especialidad + zona explícitos en el H1 o primer párrafo | Revisión manual | 🟠 Alto |
| Sitemap XML enviado a Google Search Console | Search Console | 🟡 Medio |
| Google Business Profile completo y actualizado | Google Maps | 🟡 Medio |
| Velocidad de carga < 3 segundos en mobile | PageSpeed Insights | 🟡 Medio |
| chatgpt.com o perplexity.ai en fuentes de tráfico referido | Analytics / Clarity | ✅ Indicador de éxito |
❓ Preguntas frecuentes técnicas sobre GEO
¿Qué es GPTBot y cómo afecta al GEO de mi sitio?
GPTBot es el rastreador web de OpenAI. Visita sitios para recopilar información que alimenta los modelos de ChatGPT. Si está bloqueado en tu robots.txt, ChatGPT no puede indexar tu contenido directamente. Para habilitarlo: User-agent: GPTBot / Allow: /
¿Cómo sé si GPTBot está bloqueado en mi sitio WordPress?
Abrí tudominio.com/robots.txt en el navegador. Si ves User-agent: * seguido de Disallow: /, todos los bots incluyendo GPTBot están bloqueados. Si no ves mención explícita de GPTBot con Allow: /, puede estar bloqueado por una regla general.
¿Qué Schema.org debo implementar para que las IAs entiendan qué hace mi empresa?
Como mínimo: Organization con nombre, descripción, URL y zona de operación, más FAQPage con las preguntas más frecuentes de tu audiencia. Según el rubro agregás el Schema específico: MedicalClinic para salud, LegalService para abogados, ConstructionContractor para constructoras.
¿Cómo verifico que el Schema de mi sitio está bien implementado?
Usá el validador oficial de Schema.org en validator.schema.org: pegás la URL de tu página y te muestra qué datos estructurados están presentes y si tienen errores.
¿Cuánto tarda en funcionar la configuración técnica GEO?
Los cambios en robots.txt tienen efecto en el próximo rastreo del bot — para Perplexity puede ser días, para ChatGPT puede ser semanas. Los datos estructurados Schema.org tienen impacto en el mediano plazo: Google los procesa en el próximo rastreo del sitio; las IAs lo incorporan en sus ciclos de actualización.
¿Danila Digital configura esto en los proyectos web?
Sí. En Danila Digital la configuración técnica GEO — robots.txt, Schema.org por rubro, habilitación de rastreadores de IA — está incluida en todos los proyectos web y es el primer paso de cualquier auditoría de posicionamiento en IAs. Podés leer más en nuestro artículo sobre qué es GEO y cómo aplicarlo en Argentina.
