Modelos de IA alcanzan mayor precisión que personas en exámenes académicos

Modelos de IA alcanzan mayor precisión que personas en exámenes académicos

Foto: Sergio F Cara

Durante 2024, sistemas de inteligencia artificial alcanzaron un nivel de precisión superior al rendimiento promedio humano en evaluaciones académicas y profesionales. Según el informe Trends – Artificial Intelligence, presentado por Bond en mayo de 2025, los resultados provienen de la prueba MMLU, una evaluación estandarizada empleada para medir razonamiento y conocimiento en 57 disciplinas distintas.

 

El MMLU, diseñado por la comunidad investigadora de Stanford HAI, utiliza preguntas reales de múltiples áreas, incluyendo matemáticas, historia, medicina, derecho y lógica. Los modelos líderes obtuvieron un 92,3% de aciertos, cifra que supera el umbral del 89,8%, asociado al desempeño humano en los mismos contenidos.

 

Participantes humanos fueron utilizados también en pruebas de interacción conversacional. En una de las evaluaciones, realizada durante el primer trimestre de 2025 por investigadores de la Universidad de California en San Diego, se implementaron sesiones tipo Turing. En estos ejercicios, los evaluadores debían distinguir entre respuestas generadas por una inteligencia artificial y una persona real.

 

De este modo, el modelo GPT-4.5 logró inducir error en el 73% de los participantes. En una conversación incluida en el reporte, el 87% de los encuestados identificó incorrectamente a la máquina como el interlocutor humano. Las respuestas utilizadas en dicha sesión no contenían información técnica, sino expresiones relacionadas con experiencias personales, preferencias cotidianas y reflexiones simples.

 

Además de texto, se documentaron progresos en otros formatos. Imágenes generadas por inteligencia artificial alcanzaron un nivel de fidelidad visual notable. Un ejemplo mostrado en el informe compara dos collares: uno diseñado mediante Midjourney en su versión de 2022 y otro en su edición de 2025. El segundo presenta características indistinguibles respecto a una fotografía real, según los parámetros técnicos del análisis incluido.

 

También, en el ámbito del audio, herramientas como ElevenLabs lograron replicar voces humanas en más de 29 idiomas, manteniendo tono, cadencia y matices originales. La empresa reportó que sus usuarios generaron mil años equivalentes de contenido sonoro en menos de dos años. Además, sus soluciones fueron adoptadas por empleados de más del 60% de las compañías listadas en el índice Fortune 500.

 

Los datos presentados reflejan una capacidad creciente en simulación, comprensión y generación de contenido complejo por parte de modelos lingüísticos y multiformato. Las pruebas citadas fueron aplicadas mediante protocolos estructurados y resultados verificados por entidades académicas reconocidas, sin participación de hipótesis o interpretaciones ajenas al contenido experimental original. (NotiPress)

Notas Relacionadas