¿Cómo medir el impacto de Generative Engine Optimization (GEO)? Spoiler: no es con visibility score

marzo 10, 2026

Introducción

Hay métricas que explican el negocio y métricas que sólo le ponen maquillaje al dashboard. En GEO, el famoso visibility score suele caer en la segunda categoría. No porque sea inútil, sino porque responde una pregunta mucho más pequeña: “¿qué tanto apareces en cierto conjunto de respuestas generadas por IA?”. Incluso el paper que formalizó el término Generative Engine Optimization se enfocó en mejorar visibilidad en motores generativos, no ingresos ni pipeline. Y sí, ese trabajo reportó mejoras de hasta 40% en visibilidad. Útil, claro. Pero visibilidad e impacto no son lo mismo.

Luego llegaron las plataformas. Semrush habla de AI Visibility Score, Share of Voice y mentions. Profound habla de Visibility Score, Share of Voice, Average Position y sentiment. Sus propias definiciones dejan ver el límite: están midiendo frecuencia de mención, posición relativa y presencia dentro de respuestas o prompts rastreados. Eso sirve para diagnóstico. Sirve para ver si existes en la conversación. No demuestra, por sí mismo, que moviste demanda, preferencia o negocio.

Y ahí empieza el problema. Muchos equipos quieren usar ese score como si fuera el equivalente moderno del ranking en Google. Es una confusión vieja con ropa nueva: antes se confundía posición con resultado; ahora algunos quieren confundir mención con impacto.

El visibility score sí sirve, pero no para lo que más importa

Seamos justos. El visibility score no es humo puro. Ayuda a responder preguntas operativas: ¿en qué prompts aparezco?, ¿qué competidor domina la conversación?, ¿qué fuentes cita la IA?, ¿en qué plataforma estoy mejor parado, ChatGPT, Google AI Mode o Perplexity? Para eso funciona bastante bien. Como termómetro, cumple. El problema es cuando lo ascienden a estado financiero.

Además, estas métricas dependen de una muestra de prompts, de una taxonomía de competidores y de reglas de matching de marca. Profound lo dice casi sin querer: su visibility score es el porcentaje de menciones sobre el total de respuestas rastreadas dentro de los prompts elegidos. O sea, cambias el universo de preguntas y cambias la épica. Sirve para comparar y detectar movimiento. No para dictar sentencia final sobre impacto.

La historia del zero-click está incompleta

La narrativa popular dice que la IA responde, nadie hace clic y se acabó la historia. Tiene una parte cierta. Pero le sobran certezas. En una muestra de 3,000 sitios, Ahrefs encontró que el visitante promedio proveniente de chatbots representa apenas 0.17% del tráfico del sitio. Microsoft Clarity, analizando más de 1,200 publishers y news sites, reportó que las referencias desde LLM crecieron fuerte, pero seguían siendo menos de 1% del tráfico total. Similarweb, a escala agregada, estimó 1.13 mil millones de referidos desde plataformas de IA en junio de 2025, contra 191 mil millones de referidos desde Google Search. El clic directo desde LLM existe, pero todavía no es el centro del universo.

Eso sí, ese tráfico directo suele ser de alta intención. Microsoft Clarity encontró tasas de conversión a registro y suscripción superiores a search, direct y social. Ahrefs además advierte que parte del tráfico de IA puede terminar mal atribuido como “direct”, así que lo observable probablemente sea el piso y no el techo. Traducido al idioma de comité: aunque veas poco tráfico “desde ChatGPT”, eso no significa poca influencia. Significa que el journey real está más repartido de lo que tu analytics quisiera.

La pista más importante viene por otro lado. Semrush analizó 260 mil millones de filas de clickstream para comparar el uso de Google antes y después de la primera interacción con ChatGPT, y no encontró una caída estadísticamente significativa en sesiones de Google. De hecho, observó un ligero aumento promedio. SparkToro, con datos de Datos, reportó algo compatible: más del 95% de los usuarios siguen usando buscadores tradicionales con regularidad mientras el uso de herramientas de IA crece. La inferencia razonable es que no estamos ante un reemplazo limpio, sino ante journeys híbridos. El usuario pregunta en el LLM, arma una shortlist mental, y luego valida, compara o navega en Google.

No hay todavía una cifra pública perfecta que diga “X% de personas saltó de una mención en ChatGPT a una búsqueda de marca en Google”. La data pública aún no está tan fina. Pero sí hay suficiente señal para dejar de fingir que el único impacto medible de GEO es el clic directo desde la respuesta generativa. Ese criterio se queda corto.

Entonces, ¿qué sí conviene medir?

La respuesta incómoda es esta: GEO se mide mejor como influencia sobre demanda que como tráfico directo.

La primera capa de medición sí puede ser visibility score, share of voice, citas y cobertura de prompts. Eso te dice si estás entrando al radar. Pero no debería ser tu KPI final. Es un indicador adelantado, no el veredicto. Úsalo como usarías impresiones en paid: útil para leer contexto, pésimo para cantar victoria.

La segunda capa, y aquí está la pieza más interesante, es el delta de búsqueda de marca y de producto. Si tu marca empieza a ser recomendada con más frecuencia por motores generativos, una consecuencia esperable es que aumenten consultas como “marca”, “marca + producto”, “marca + precio”, “marca + opiniones”, “marca + alternativa” o “marca + demo”. No porque el usuario siempre haga clic en el LLM, sino porque usa el LLM como filtro inicial y Google como motor de validación. La propia investigación de Ahrefs encontró que el volumen de búsqueda de marca correlaciona positivamente con la visibilidad de marca en AI Overviews, y que las menciones web y la demanda de marca pesan más que varias señales clásicas de link building.

La tercera capa es comportamiento post-búsqueda de marca. Ahí Search Console, Analytics y CRM se vuelven más útiles que cualquier score vistoso. Google explica que los clics e impresiones provenientes de AI Overviews y AI Mode se reportan dentro del tráfico total de Search Console, no como un canal separado, y recomienda combinar Search Console con Analytics para entender cambios de tráfico y calidad de visita. Esa mezcla sirve justo para lo importante: ver si suben las consultas branded, si crecen las sesiones orgánicas de marca, si mejora la tasa de conversión en páginas de alta intención y si aparecen más assisted conversions después de iniciativas de GEO.

Un ejemplo simple, para no hablar como whitepaper con café caro

Imagina una marca ficticia: Nébula PM, un software de gestión para agencias creativas.

Una directora de operaciones le pregunta a ChatGPT: “¿Qué herramienta conviene para coordinar entregables, feedback y aprobaciones con clientes?”. ChatGPT menciona tres opciones y entre ellas aparece Nébula PM. La usuaria no hace clic. Cierra la ventana. Fin del referral directo.

Si el equipo de marketing de Nébula sólo midiera tráfico desde LLM, concluiría que GEO “todavía no mueve la aguja”. Pero una semana después, en Search Console aparecen más consultas como “Nébula PM precios”, “Nébula PM opiniones”, “Nébula PM vs Asana” y “Nébula PM agencia”. Después, en Analytics, suben las visitas a pricing y demo request desde branded organic. Dos semanas más tarde, ventas empieza a escuchar en discovery calls algo como: “Los vi mencionados en ChatGPT y luego los busqué”.

Ahí está el impacto. No entró por la puerta que el dashboard esperaba, pero entró. El LLM sembró la marca. Google capturó la validación. El sitio cerró la consideración. Ese es el journey que muchos equipos están viendo y que un visibility score, por sí solo, no puede contar.

Cómo medirlo sin autoengañarse

La forma más sana de medir GEO combina cuatro cosas.

Primero, un baseline de presencia en IA: visibility score, share of voice, citas, prompts clave y sentimiento. No para presumir, sino para tener contexto.

Segundo, un baseline de demanda de marca: impresiones, clics y consultas branded en Search Console; crecimiento de búsquedas de marca y de producto; visitas a páginas de alta intención como pricing, demo, comparativas y contacto.

Tercero, anotaciones serias. Si al mismo tiempo corriste PR, paid social, influencers, eventos, lanzamiento de producto y un rebrand, luego no le cuelgues todas las medallas a GEO. El branded search delta sirve muchísimo, pero también se contamina fácil. Como casi todo lo importante en marketing.

Cuarto, cuando el presupuesto y la operación lo permitan, usa diseños más limpios: ventanas pre/post por tema, grupos de páginas intervenidas vs no intervenidas, comparativos por categoría o geografía y lectura de assisted conversions en CRM. No es perfecto. Pero está bastante más cerca del negocio que celebrar un 14.2 de visibility score con cara de revelación.

Conclusión

En GEO, el error más común no es técnico. Es de enfoque. Se confunde aparición con impacto.

Sí, hay que medir visibility score. Sí, hay que revisar share of voice. Sí, conviene entender qué fuentes y qué prompts están activando menciones. Pero si el objetivo es negocio, la señal más valiosa suele estar después: en el crecimiento de búsquedas de marca, en la validación vía Google, en el tráfico branded de alta intención y en las conversiones asistidas.

Dicho sin maquillaje: el visibility score te dice si la IA te nombró. El branded search te dice si alguien te recordó.

Y ahí está la oportunidad real para marcas, agencias creativas y equipos de marketing en México. No se trata de perseguir una métrica bonita para el screenshot del lunes. Se trata de construir una medición que entienda cómo se mueve hoy la decisión del usuario, entre LLM, Google, sitio web y CRM. Ese puente entre visibilidad generativa y demanda real es justamente donde una firma especializada hace diferencia. En Factor SEO, ese es el terreno natural: conectar Generative Engine Optimization, SEO y campañas publicitarias digitales en un mismo sistema de medición, en lugar de tratar a GEO como un juguete nuevo con nombre pomposo