Cómo mido a mis agentes IA cada semana — el sistema que uso de verdad

Cómo mido a mis agentes IA cada semana — el sistema que uso de verdad
Índice 7 secciones
  1. Por qué medir agentes IA es distinto a medir personas
  2. Las 5 métricas que miro cada lunes
  3. Qué mido en cada agente (con datos reales)
  4. Mi sistema de revisión semanal — el flujo completo
  5. Los errores que cometí midiendo al principio
  6. Métricas trampa: parecen útiles, no lo son
  7. Cuándo un agente necesita cambios (y cuándo dejarlo)

Tener 6 agentes de IA suena impresionante. Hasta que alguien te pregunta: "¿Y cómo sabes que están haciendo bien su trabajo?"

Y ahí te quedas.

Porque medir un agente de IA no es como medir a un empleado. No le ves la cara el lunes por la mañana. No notas si está "inspirado" o si va con el piloto automático. Solo ves outputs: un post publicado, un email enviado, un briefing generado. Y del output al resultado de negocio hay un tramo que la mayoría de solopreneurs no miden.

Llevo 4 meses con mi equipo de 6 agentes operando — Ariel en LinkedIn, Rafiki en el blog, Lentejo en la newsletter, Remy en research. El primer mes no medía nada. Me bastaba con que los agentes "hicieran cosas". El segundo empecé a medir todo: tokens, tiempos, número de tareas, longitud de outputs. Tenía un caos de datos y cero claridad. Ahora, cuarto mes, mido 5 cosas. Y por primera vez sé exactamente qué funciona y qué no.

Por qué medir agentes IA es distinto a medir personas

Métricas de rendimiento de agentes IA
Indicadores cuantitativos y cualitativos que permiten evaluar si un agente de inteligencia artificial está cumpliendo su objetivo de negocio. Incluyen calidad del output, consistencia, velocidad, impacto medible y tasa de errores. Se revisan periódicamente para decidir si el agente se mantiene, se ajusta o se reconstruye.

Con un empleado humano recibes señales constantes que no son métricas. Una conversación en el pasillo te dice más sobre su motivación que cualquier KPI. Un email bien redactado te confirma que entiende el proyecto sin necesidad de un dashboard.

Con un agente IA, todo eso desaparece. Solo tienes el resultado. Y el resultado puede ser engañoso, porque un agente puede producir contenido que parece perfecto a primera vista pero que no mueve ningún indicador de negocio. Bonito por fuera, vacío por dentro.

Según Gartner, el 40% de las aplicaciones empresariales tendrán agentes de IA integrados a finales de 2026. Pero la mayoría de empresas que los implementan no tienen un sistema de medición adaptado — usan las mismas métricas de productividad humana. Y eso no funciona, porque un agente IA tiene problemas distintos: alucinaciones, pérdida de tono, drift gradual en la calidad.

La clave que he aprendido: no midas al agente, mide el efecto del agente en tu negocio. Un agente que publica 10 posts al día no es bueno si esos posts no generan tráfico. Un agente que publica 1 post es excelente si ese post trae 500 visitas.

Las 5 métricas que miro cada lunes

Después de probar con más de 20 indicadores distintos, me he quedado con 5. Ni uno más. Cubren todo lo que necesito saber sin ahogarme en datos que no cambian ninguna decisión.

Las 5 métricas clave para medir el rendimiento de agentes IA en un negocio real

Cada métrica tiene una lógica detrás. No son aleatorias — son las que sobrevivieron a 4 meses de prueba y error.

1. Calidad del output (revisión manual, 1-10). Cada lunes cojo una muestra aleatoria de lo que cada agente produjo esa semana. Un post de Rafiki, dos publicaciones de Ariel, un briefing de Remy. Los leo con ojo crítico y puntúo del 1 al 10. ¿Suena a mí? ¿Tiene datos reales? ¿Aporta valor a quien lo lee? Es el indicador más subjetivo, pero también el más importante. Si la calidad baja, todo lo demás da igual.

2. Consistencia de tono. Más sutil que la calidad. Un agente puede producir calidad alta un día y sonar a robot corporativo al siguiente. Busco que el tono se mantenga estable semana a semana. Si Ariel de repente mete "¡Transforma tu negocio!" en LinkedIn, algo ha cambiado y toca investigar. La consistencia separa un agente útil de uno impredecible.

3. Velocidad vs referencia. No velocidad absoluta — velocidad comparada con su propio histórico. Si Rafiki normalmente tarda X minutos en generar un post y de repente tarda el doble, algo pasa. La referencia la establezco con las primeras dos semanas de datos de cada agente. Todo se compara contra ese baseline.

4. Impacto en métricas de negocio. La que importa de verdad. Para Rafiki: impresiones en Google Search Console y posts indexados. Para Ariel: engagement rate en LinkedIn. Para Lentejo: tasa de apertura y clics en la newsletter. Para Remy: número de insights accionables por briefing. Si el impacto sube, el agente funciona. Si baja, da igual que el output parezca brillante.

5. Tasa de errores. ¿Cuántas veces he tenido que corregir o descartar algo que produjo el agente esa semana? Si Rafiki produce 14 posts y tengo que intervenir en 1, es un 7%. Aceptable. Si tengo que tocar 4, es un 28%. Inaceptable. Esta métrica me dice cuánto trabajo "humano" genera cada agente en vez de ahorrarlo.

Qué mido en cada agente (con datos reales)

No todos los agentes se miden igual. Cada uno tiene su contexto, su canal y sus indicadores específicos.

Agente Función Métrica estrella Referencia semanal
Rafiki Blog SEO Posts indexados en Google 10-14 posts/semana, >90% indexados
Ariel LinkedIn Engagement rate >2,5% por publicación
Lentejo Newsletter Tasa de apertura >35% (media sector: ~25%)
Remy Research Insights accionables >50% terminan en decisiones
Desdentado YouTube En desarrollo Sin referencia aún
FBS Analítica En desarrollo Sin referencia aún

Los cuatro primeros llevan meses operando y ya tienen referencias estables. Desdentado y FBS están en fase de construcción — cuando los lance, pasarán por las mismas primeras semanas de calibración que pasaron los demás.

Un dato que me sorprendió: Lentejo mantiene una tasa de apertura consistentemente por encima del 35%, cuando la media del sector de newsletters ronda el 25% según los benchmarks de Mailchimp de 2025. Eso me dice que el agente entiende qué asuntos funcionan con mi audiencia. No lo habría descubierto sin medir cada semana.

Y Ariel ha subido de forma constante en engagement desde que empecé a medir y ajustar. Las primeras semanas estaba por debajo del 2%, que es la media en LinkedIn. Después de ajustar el tipo de contenido y el formato basándome en las métricas semanales, se estabilizó por encima del 2,5%. Parece poca diferencia — pero en LinkedIn, medio punto de engagement se traduce en el doble de alcance orgánico.

Mi sistema de revisión semanal — el flujo completo

Cada lunes por la mañana, antes de hacer nada, dedico 45 minutos a la revisión de agentes. Es sagrado. Si me salto una semana, noto la diferencia — empiezo a acumular errores que podría haber cortado antes.

Flujo de revisión semanal de agentes IA en 5 pasos: datos, calidad, comparar, anomalías, acción

El proceso tiene 5 pasos y no necesita ninguna herramienta cara. Yo uso una hoja de cálculo. Tú podrías usar Notion, un Google Doc o un cuaderno de papel. La herramienta da igual — lo que importa es la disciplina.

🚀

¿Quieres montar tu propio equipo de agentes de IA?

Cada semana comparto lo que funciona (y lo que no) montando agentes reales para mi negocio. Sin teoría, sin humo.

🎁 Al suscribirte recibes mi guía: cómo llegué a 500 subs en <1 mes con agentes IA.

Suscribirme gratis

Paso 1: Recoger datos (10 min). Abro Google Search Console, LinkedIn Analytics, SendFox y apunto los números de la semana. Para cada agente, relleno las 5 métricas en la hoja. Con Claude Code podría automatizar esta parte, pero de momento prefiero hacerlo a mano para mantener el contacto directo con los datos.

Paso 2: Revisar calidad de una muestra (15 min). Leo una muestra de lo que produjo cada agente. Un post del blog, dos publicaciones de LinkedIn, un email de newsletter. Puntúo del 1 al 10. ¿Suena a mí? ¿Hay datos reales? ¿Alguna frase chirría? Este paso es el que más valor aporta y no es automatizable.

Paso 3: Comparar con semanas anteriores (5 min). Miro la tendencia en la hoja. ¿Sube, baja o se mantiene? Una bajada puntual no me preocupa. Dos semanas seguidas, sí.

Paso 4: Detectar anomalías (5 min). ¿Algo raro? ¿Un pico de errores? ¿Un desplome de engagement? ¿Un cambio de tono inesperado? Las anomalías son señales tempranas. Si las pillas a tiempo, corriges antes de que se conviertan en problema.

Paso 5: Decidir acción (10 min). Para cada agente tomo una decisión: mantener, ajustar o reconstruir. Mantener es el resultado el 80% de las veces. Ajustar implica cambiar el prompt, actualizar las instrucciones o modificar un parámetro del workflow. Reconstruir es raro — solo cuando el agente lleva semanas sin cumplir y los ajustes no funcionan. En mi protocolo de debugging explico el proceso cuando algo falla de verdad.

Los errores que cometí midiendo al principio

No te voy a mentir: mis primeras semanas midiendo agentes fueron un desastre. Aquí van los tres errores gordos.

Error 1: Medir tokens consumidos. El primer mes miraba cuántos tokens gastaba cada agente. ¿Sabes qué descubrí? Que es completamente irrelevante. Un agente puede gastar muchos tokens y producir un resultado increíble, o gastar pocos y producir basura. Con Claude Max a ~100€/mes, el coste por token no es el problema. El problema es si el agente produce valor real para el negocio.

Error 2: Priorizar velocidad sobre calidad. Al principio optimicé para que los agentes fueran rápidos. "Quiero el post en 5 minutos, no en 12." Resultado: posts rápidos pero superficiales. Aprendí que esos minutos extra con buena calidad son infinitamente mejores que velocidad con output mediocre. Como explico en el post sobre elegir modelos, a veces necesitas el modelo más potente aunque sea más lento.

Error 3: Medir 20 cosas a la vez. Tuve una época con una hoja de cálculo con 20 columnas por agente. Longitud media de párrafo. Densidad de keywords. Ratio de enlaces internos. Tiempo medio entre publicaciones. ¿Sabes qué pasó? Que no miraba ninguna. Demasiados datos paralizan. Reduje a 5 métricas y por primera vez empecé a tomar decisiones de verdad.

El secreto no es medir más. Es medir menos y actuar sobre lo que mides.

Métricas trampa: parecen útiles, no lo son

Además de los errores de principiante, hay métricas que parecen importantes pero que en la práctica no cambian ninguna decisión. Son las "métricas vanidad" de los agentes IA.

Número de tareas completadas. Que un agente complete 50 tareas al día suena productivo. Pero si 40 de esas tareas no necesitaban hacerse, o se hacen sin impacto real, son ruido disfrazado de actividad. Mide resultados, no movimiento.

Tiempo de respuesta del modelo. A no ser que estés atendiendo clientes en tiempo real, que el modelo tarde 2 o 8 segundos no cambia nada relevante. Cuando cofundé GuruWalk, medíamos el tiempo de carga de la web porque cada segundo importaba para la conversión. Con un agente que trabaja en segundo plano publicando contenido, eso no aplica.

"Me gusta cómo escribe." Eso no es una métrica. Es un sentimiento. Y los sentimientos cambian. Un lunes todo te parece genial, un martes todo te parece horrible — y el output es exactamente el mismo. Necesitas números que no dependan de cómo te levantes esa mañana.

La regla que aplico: si una métrica no cambia una decisión, sobra. Si da igual que suba o baje porque no voy a hacer nada diferente, fuera de la hoja. Así pasé de 20 columnas a 5.

Cuándo un agente necesita cambios (y cuándo dejarlo)

La decisión más difícil no es crear un agente ni configurarlo. Es decidir cuándo tocarlo y cuándo dejarlo en paz.

Mi regla es simple: dos semanas consecutivas por debajo de su referencia en cualquier métrica clave = acción obligatoria. Una semana mala puede ser ruido — un cambio en el algoritmo de LinkedIn, un tema del blog que interesa menos, un festivo que distorsiona los datos. Dos semanas seguidas es tendencia.

Cuando toco un agente, siempre hago cambios mínimos. Nunca reescribo todo el prompt de golpe. Cambio una instrucción, espero una semana y mido. Si funciona, perfecto. Si no, cambio otra cosa. Es el mismo principio que aplico con los errores que voy documentando: aísla la variable, mide el efecto, decide con datos.

¿Y cuándo reconstruyo desde cero? Solo lo he hecho una vez en 4 meses. Y fue porque el objetivo del agente había cambiado — no porque fallara. Si el agente hace lo que le pediste pero tú necesitas algo distinto, no es un problema de rendimiento. Es un problema de diseño.

Lo que más me ha costado aprender: resistir la tentación de tocarlo todo a la vez. Ves una semana con engagement bajo y tu instinto es cambiar el prompt, el modelo, el horario y el formato. Todo de golpe. Y luego no sabes qué funcionó. Paciencia, tío. Un cambio por semana. Mides. Decides. Repites.

El 23% de las nuevas startups en España son solopreneurs, según datos de South Summit vía El Español. Muchos van a empezar a usar agentes IA. Los que midan van a iterar y mejorar. Los que no, van a pensar que "la IA no funciona" cuando el problema real es que nunca supieron si estaba funcionando o no.

45 minutos el lunes. 5 métricas. Cero herramientas caras. Así controla un solopreneur un equipo de agentes sin perder la cabeza.

El primer mes no medía nada y funcionaba. El segundo medía todo y me volvía loco. Ahora mido cinco cosas y tomo mejores decisiones que cuando tenía un dashboard con treinta gráficos. Medir agentes no va de datos — va de saber qué preguntarte.
Pablo Pérez-Manglano · Solopreneur con 6 agentes IA operativos desde febrero 2026 · junio 2026

Preguntas frecuentes

¿Con qué frecuencia hay que medir el rendimiento de los agentes IA?

Semanal es el punto dulce. Diario es excesivo y no te da perspectiva. Mensual es demasiado tarde para corregir problemas. Yo hago una revisión cada lunes de 45 minutos que cubre mis 6 agentes.

¿Qué herramientas uso para medir el rendimiento de mis agentes IA?

No uso herramientas especializadas. Google Search Console para el blog, LinkedIn Analytics para Ariel, SendFox para Lentejo, y una hoja de cálculo donde apunto las 5 métricas de cada agente cada semana.

¿Cuál es el error más común al medir agentes IA?

Medir actividad en vez de resultados. Que un agente consuma muchos tokens o complete muchas tareas no significa nada. Lo que importa es si el blog recibe más tráfico, si LinkedIn genera engagement, si la newsletter convierte.

¿Cómo sé cuándo un agente IA necesita cambios?

Dos semanas consecutivas por debajo de su referencia en cualquier métrica clave. Una semana mala puede ser ruido. Dos semanas seguidas es una señal. Entonces reviso el prompt, el modelo o el workflow completo.

¿Se puede automatizar la medición de agentes IA?

Parcialmente. Los datos cuantitativos (tráfico, engagement, envíos) los puedo extraer con scripts. Pero la calidad del output requiere revisión humana — al menos una muestra semanal. No confíes al 100% en un agente para evaluar a otro agente.

Newsletter semanal

Lo que me pasa emprendiendo. Sin filtro.

Cada semana: lo que estoy construyendo, lo que funciona, lo que falla. Emprendimiento real con agentes IA como compañeros de viaje.

Me apunto →

Newsletter gratis · 🎁 Incluye guía: 0 a 500 subs con agentes IA

Suscribirme →