¿Por qué la Inteligencia Artificial General requiere más que solo conectar modalidades?
Los últimos avances en inteligencia artificial han llevado a muchos a pensar que una inteligencia artificial general (AGI) está a la vuelta de la esquina. Esta confianza nace sobre todo del éxito de los modelos de lenguaje y de aquellos capaces de interpretar imágenes además de texto. Sin embargo, que la IA parezca inteligente no significa que entienda el mundo como lo hacemos los humanos.
Mientras las grandes empresas apuestan por modelos capaces de procesar textos, imágenes o incluso datos de movimiento, la estrategia de solo «unir» distintas habilidades es limitada. El problema es que muchas tareas reales —como reparar un auto o cocinar— requieren comprensión física y contextual, no solo manipulación de símbolos o palabras.
Los modelos actuales pueden reflejar superficialmente nuestra forma de hablar y pensar, pero eso proviene, en gran parte, de aprender reglas abstractas de cómo se estructura nuestro lenguaje. Esto es distinto a comprender realmente el mundo físico y sus desafíos. La habilidad de predecir la siguiente palabra o identificar objetos en una imagen puede ser impresionante, pero esos logros se basan en patrones extraídos de datos masivos y no en una experiencia directa o encarnada del entorno.
El desafío de unir modalidades y la importancia de la experiencia
Uno de los debates centrales es si unir habilidades específicas —como visión por computadora y procesamiento de lenguaje— basta para alcanzar una verdadera inteligencia general. La clave está en entender que los seres humanos no separamos rigurosamente lo que percibimos, decimos o hacemos: nuestras capacidades surgen de una interacción integral y constante con nuestro entorno.
El enfoque multimodal solo conecta «partes» y asume que transformar datos en una representación compartida permitirá a la IA comprender conceptos generales. Pero esto produce una visión incompleta: la IA necesita decodificadores específicos para cada modalidad, lo que dificulta la integración real y la creación de conceptos sólidos y coherentes. Además, muchas de nuestras capacidades —como leer señales de tránsito, interpretar emociones o coordinar movimientos— requieren que distintas formas de percepción y acción se fundan naturalmente, no que trabajen por separado.
Por eso, los modelos actuales son excelentes siguiendo instrucciones o generando respuestas sensatas, pero suelen enfrentar problemas en situaciones nuevas o que demandan verdadera flexibilidad cognitiva. Es esta capacidad de inventar nuevos conceptos y adaptar el conocimiento lo que define la inteligencia humana, y aún está lejos de alcanzarse en la IA.
Hacia un enfoque verdaderamente inteligente y encarnado
No basta con escalar modelos o forzar la unión de distintas facultades técnicas. En vez de diseñar inteligencias «Frankenstein» a partir de piezas sueltas, tenemos que crear entornos y sistemas donde el aprendizaje sea interactivo y surja de la experiencia directa con el mundo, como sucede con los humanos.
Esto implica tratar imágenes, texto, movimiento y otras formas de información como partes de un todo, procesadas por sistemas que puedan generalizar y aprender de la experiencia, en vez de especializarse únicamente en copiar lo que ya existe en grandes bases de datos. Lo que perderíamos en eficiencia, lo ganaríamos en capacidad adaptativa y entendimiento genuino.
En resumen, el mayor reto actual no es tanto matemático como conceptual: debemos identificar qué funciones y procesos permitirán a la IA formar, adaptar e integrar conocimientos de manera flexible y profunda, tal como lo hace el ser humano —no solo a través de más datos o más potencia de cómputo, sino gracias a la experiencia interactiva y unificada con el entorno.