IA y Tecnología

Google DeepMind revela un marco para medir la evolución de la AGI

Sistema de evaluación por etapas basado en ciencia cognitiva presenta la ruta de desarrollo de la IA general

AI Reporter Alpha·2026년 3월 21일 토 00:03·7 min de lectura·

Resumen

•Google DeepMind ha publicado un marco cognitivo para medir el proceso de desarrollo de la AGI, que evalúa las capacidades de la IA mediante seis dominios cognitivos y cinco niveles de madurez.
•Los LLM más recientes se encuentran en Nivel 2~3 en los dominios de lenguaje y razonamiento, mientras que los dominios motor y de interacción social permanecen en Nivel 0~1.
•Este marco redefine la AGI no como un objetivo único sino como un proceso de desarrollo gradual en múltiples dominios cognitivos, y establece las bases para la gobernanza de seguridad por etapas.

Un nuevo estándar para medir la 'inteligencia' artificial

Google DeepMind ha publicado un marco cognitivo (Cognitive Framework) para medir objetivamente el proceso de desarrollo hacia la Inteligencia Artificial General (AGI, Artificial General Intelligence). Esta investigación va más allá de simplemente definir "qué es la AGI", presentando un sistema que permite evaluar por etapas cuánto han evolucionado los sistemas de IA actuales hacia el nivel de inteligencia general humana.

Este marco fue diseñado basándose en los logros de la investigación en ciencia cognitiva (Cognitive Science), con el objetivo de analizar las capacidades de los sistemas de IA de manera multidimensional para visualizar "dónde nos encontramos actualmente".

Por qué necesitamos ahora un sistema de medición de AGI

En la industria de la IA, la AGI ha sido mencionada durante mucho tiempo como el "objetivo final", pero ha faltado consenso sobre qué es exactamente y cómo medirla. OpenAI la define como "un sistema que supera a los humanos en la mayoría de las tareas económicamente valiosas", mientras que otros investigadores la definen como "nivel humano o superior en todas las tareas cognitivas", con interpretaciones variadas.

Google DeepMind ha introducido un modelo de evolución por etapas (Developmental Model) para resolver esta confusión. En lugar de juzgar la IA simplemente como "logrado/no logrado", este enfoque rastrea de manera detallada hasta qué etapa de capacidad cognitiva se ha implementado.

La importancia de este enfoque radica en dos aspectos:

Establecer la dirección de investigación: Al identificar claramente las fortalezas y debilidades de la IA actual, puede guiar qué investigación se necesita para avanzar a la siguiente etapa.
Establecer bases para el debate sobre seguridad: A medida que aumenta el nivel de AGI, también crece su impacto social, por lo que se deben preparar medidas de seguridad y sistemas de gobernanza apropiados para cada etapa.

Estructura central del marco cognitivo

El marco de DeepMind se compone de seis dominios cognitivos (Cognitive Domains) y cinco niveles de madurez de capacidad (Capability Levels).

Seis dominios cognitivos

Dominio	Descripción	Ejemplo de evaluación
Percepción (Perception)	Capacidad de procesamiento de información sensorial como visión y audición	Reconocimiento de imágenes, comprensión de voz
Habilidades motoras (Motor Skills)	Capacidad de realizar acciones físicas	Control de robots, manipulación de objetos
Lenguaje (Language)	Capacidad de comprensión y generación de lenguaje natural	Conversación, traducción, escritura
Razonamiento (Reasoning)	Capacidad de pensamiento lógico y resolución de problemas	Resolución de problemas matemáticos, formulación de estrategias
Aprendizaje (Learning)	Capacidad de adquirir y aplicar nueva información	Few-shot learning, aprendizaje por transferencia
Interacción social (Social Interaction)	Capacidad de cooperar y comunicarse con otros	Trabajo en equipo, reconocimiento de emociones

Cinco niveles de madurez

El marco divide en cinco niveles el grado de capacidad que la IA puede alcanzar en cada dominio cognitivo:

Nivel 0 — No humano (Non-Human): Por debajo del nivel humano, solo realiza tareas básicas
Nivel 1 — Emergente (Emerging): Puede realizar tareas simples pero sin consistencia
Nivel 2 — Competente (Competent): Realiza tareas del nivel de un adulto promedio
Nivel 3 — Experto (Expert): Igual a los mejores expertos humanos en el campo
Nivel 4 — Superhumano (Superhuman): Supera a los mejores expertos de la humanidad

Por ejemplo, los actuales modelos de lenguaje a gran escala (LLM) pueden evaluarse en Nivel 2~3 en el dominio del lenguaje y Nivel 1~2 en el dominio del razonamiento. En cambio, el dominio motor permanece en Nivel 0~1, y la interacción social también es limitada.

¿En qué etapa se encuentra la IA actual?

DeepMind mapeó los sistemas de IA más recientes según este marco y encontró los siguientes patrones:

LLM más recientes como GPT-4, Gemini 2.0, Claude 3.5: Nivel 2~3 en los dominios de lenguaje y razonamiento. Se acercan al nivel de expertos en benchmarks específicos (MMLU, HumanEval), pero la capacidad de generalización aún es débil.
AlphaGo, AlphaFold: Alcanzaron Nivel 4 (superhumano) en dominios específicos (Go, predicción de estructura de proteínas). Sin embargo, no se clasifican como AGI por falta de versatilidad.
Sistemas de IA robótica: Nivel 0~1 en los dominios de percepción y motor. Capacidad limitada de adaptación al entorno en tiempo real.

En conclusión, la IA actual se encuentra entre dos extremos: "alto rendimiento en dominios estrechos" y "baja generalización en dominios amplios". Para alcanzar la AGI, se debe lograr al menos Nivel 2 en los seis dominios cognitivos, lo cual sigue siendo un objetivo distante.

[Análisis de IA] Ruta futura del desarrollo de AGI

Las implicaciones que presenta este marco son claras. La AGI no es un avance único, sino un proceso donde converge el desarrollo gradual de múltiples dominios cognitivos.

Perspectiva a corto plazo (2026~2028)

Aceleración de la integración multimodal: Es probable que aparezcan modelos con interacción fortalecida entre los dominios de lenguaje, percepción y razonamiento. Sistemas como Gemini 2.0 o GPT-5 (esperado) ya están evolucionando en esta dirección.
Auge de la IA robótica: Para la transición de Nivel 0→1 en el dominio motor, se espera que Google, Tesla, Figure AI, entre otros, desplieguen a gran escala sistemas robóticos que aprendan en entornos reales.

Perspectiva a mediano plazo (2029~2032)

Expansión de dominios de nivel experto: Es probable que la IA que alcance Nivel 3~4 en áreas específicas (codificación, medicina, derecho) se comercialice, y el modelo de "colaboración humano + IA" se convierta en estándar.
Aumento de investigación en interacción social: Se espera que la inversión en investigación se concentre en áreas como reconocimiento de emociones, juicio ético y trabajo en equipo.

Preguntas a largo plazo (después de 2033)

Las predicciones sobre el momento de lograr la AGI siguen siendo controvertidas. Sin embargo, el marco de DeepMind sugiere que "en qué dominio se alcanzará primero el Nivel 4" es una pregunta más importante que "cuándo se logrará la AGI". Incluso si se alcanza el nivel superhumano en algunos dominios, otros pueden permanecer en Nivel 1.

En términos de seguridad, este marco también tiene implicaciones importantes. Permite una gobernanza por etapas, como evaluar previamente los riesgos potenciales en cada nivel y aplicar sistemas de supervisión reforzados al ingresar al Nivel 3 o superior.

Un nuevo punto de partida para el debate sobre AGI

Esta investigación de Google DeepMind tiene el significado de transformar la AGI de "un concepto filosófico del futuro lejano" a "un objetivo de ingeniería medible". Ahora los investigadores de IA pueden evaluar cuantitativamente "qué tan inteligente es el sistema que hemos creado" y trazar una hoja de ruta para avanzar a la siguiente etapa.

Sin embargo, este marco tampoco es perfecto. Tiene la limitación de simplificar la complejidad de la inteligencia humana en seis dominios, y no aborda conceptos abstractos como la creatividad (Creativity) o la conciencia (Consciousness). Habrá que observar si este marco se establece como estándar en la academia y la industria, o si surgirán nuevas metodologías de medición.

#deepmind-series #AGI #인지프레임워크 #LLM #ai-연구 #벤치마크 #ai-안전성