Cuántos humanos hacen fiable una evaluación de IA

viernes 10 de abril, 2026

Cuando una red social marca un comentario como “ofensivo” o “no ofensivo”, eso puede cambiar quién ve una publicación.

Es común que diferentes personas no coincidan en esa etiqueta, y esa discrepancia complica saber si un sistema de IA falla o acierta.

El 31 de marzo de 2026, investigadores de Google Research —Flip Korn y Chris Welty— presentaron un marco para evaluar modelos de IA que optimiza cuántos ejemplos revisar y cuántas personas deben evaluar cada ejemplo.

Publicaron un artículo y abrieron un simulador de código para la comunidad. La reproducibilidad, es decir, repetir un experimento y obtener los mismos resultados, depende aquí de medir correctamente la opinión humana.

Qué cambia en la práctica

Más precisión en comparaciones entre modelos

Las pruebas habituales con 1–5 evaluadores por ejemplo suelen ocultar desacuerdos reales.

El nuevo enfoque muestra que, para distinguir con seguridad entre dos modelos, a menudo se necesitan más de 10 opiniones en cada ejemplo o ajustar la distribución de evaluadores según la métrica.

Etiquetas que reflejan la diversidad de opiniones

Hasta ahora muchas etiquetas se reducen a una mayoría. El método propone capturar la variación humana, de modo que una etiqueta no sea solo la opción más votada, sino una representación más fiel del desacuerdo entre personas.

Mejor uso del presupuesto para anotaciones

El estudio identifica combinaciones eficientes entre número de ejemplos y evaluadores por ejemplo.

Con alrededor de 1,000 anotaciones bien distribuidas se pueden obtener resultados reproducibles, evitando gastar de más sin mejorar la calidad de la evaluación.

Cómo funciona

El enfoque usa una analogía simple: elegir entre ver muchos platos por poco tiempo (amplitud) o probar pocos platos con varias personas (profundidad).

Un simulador prueba miles de combinaciones entre cantidad de ítems y cantidad de evaluadores para encontrar qué balance da resultados estadísticamente confiables según lo que se quiera medir.

El método no elimina la subjetividad humana. Los resultados dependen del tipo de datos, la distribución (por ejemplo, si casi todo es spam) y de la definición exacta de las categorías.

Queda en manos de cada equipo adaptar la proporción de evaluadores según su caso y validar en su propio contexto.

La propuesta apunta a mover las pruebas de IA hacia evaluaciones más transparentes y representativas de la opinión humana.

Al ofrecer herramientas abiertas, facilita que equipos diseñen benchmarks más reproducibles sin multiplicar gastos innecesarios.

Impacto en negocio: Mejora la comparación entre modelos y reduce gastos en anotaciones incorrectas.
Impacto en usuarios: Producción de etiquetas más fieles a la diversidad de opiniones, mejorando decisiones automáticas.
Impacto en industria: Establece un estándar para evaluar IA en tareas subjetivas y promueve pruebas más transparentes.

Nota de Transparencia

Esta nota fue generada 100% con IA. La fuente fue aprobada por Diario Occidente y el contenido final fue revisado por un miembro del equipo de redacción.

🔊 El Resumen de Noticias sobre Inteligencia Artificial e Innovación Tecnológica, aquí 👇🏻

Curaduría editorial

La curaduría y revisión editorial de estas notas está a cargo de Rosa María Agudelo Ayerbe, comunicadora social y periodista, con maestría en Transformación Digital y especialización en Inteligencia Artificial.

Desde su rol como líder del equipo de innovación y transformación digital del Diario Occidente, y a través de la unidad estratégica DO Tech, realiza un seguimiento permanente a las principales novedades en tecnología e inteligencia artificial a nivel global.

Estas notas se apoyan en un agente de investigación basado en inteligencia artificial, diseñado para monitorear semanalmente avances, lanzamientos y debates clave del sector.

El contenido es posteriormente leído, analizado, contextualizado y validado editorialmente antes de su publicación.

Este proceso forma parte del mecanismo de actualización continua que permite interpretar los desarrollos tecnológicos desde una mirada periodística, crítica y comprensible para audiencias no especializadas.