Más Allá del Multimodal: ¿Qué le Falta a la AGI?

¿Por qué la Inteligencia Artificial General requiere algo más que solo datos y modalidades?

Las recientes innovaciones en inteligencia artificial han impulsado la creencia de que estamos cerca de lograr una Inteligencia Artificial General (AGI) capaz de igualar el razonamiento humano. Sin embargo, estas tecnologías funcionan mediante la manipulación masiva de datos y simbología, no porque comprendan el mundo físico como lo hacemos nosotros. El enfoque actual, que busca unir distintas capacidades (como visión, lenguaje y acción) en súper-modelos multimodales, resulta limitado. El verdadero desafío para una AGI reside en poder enfrentarse a tareas del mundo real, como reparar objetos o interactuar socialmente, donde se requiere de una comprensión física y contextual que ningún modelo puede obtener solo del lenguaje o imágenes.

Los modelos lingüísticos actuales aprenden patrones y reglas muy abstractas para predecir palabras, pero esto no implica que realmente entiendan la realidad tras ellas. Muchos problemas cotidianos no pueden resolverse solo manipulando símbolos o datos, pues requieren de experiencia directa. Por lo tanto, una inteligencia realmente general debe estar situada en el mundo físico, superando la simple combinación de modalidades para lograr un razonamiento flexible y efectivo.

¿Hasta dónde puede llegar el enfoque de escalar y combinar modelos?

El éxito de modelos gigantescos en inteligencia artificial se basa más en la escala que en la eficiencia: más datos y mayor potencia computacional llevan a mejores resultados, aunque a menudo de manera poco práctica. Algunos defienden que solo necesitamos sumar más modalidades y datos para alcanzar una AGI, pero este método presenta límites fundamentales. Combinar capacidades diversas no garantiza crear una inteligencia integrada, porque los módulos terminan aprendiendo en compartimentos separados y pueden fallar en comprender contextos complejos o actuar con sentido en el mundo real.

En el desarrollo humano, percepción y acción están entrelazadas: vemos, escuchamos y actuamos con los mismos sistemas cognitivos, no en partes aisladas. Imitar esta integración profunda requeriría modelos que no distingan estrictamente entre, por ejemplo, texto e imagen, sino que puedan procesar toda la experiencia de manera conjunta y significativa. Por ello, en vez de expandir los modelos modulares, debemos buscar que la inteligencia se construya a partir de la interacción con el entorno, permitiendo que surjan naturalmente capacidades como el lenguaje o la visión.

Hacia una inteligencia artificial verdaderamente flexible

Crear una AGI mediante la simple suma de modelos específicos para cada tarea conduce a sistemas rígidos, incapaces de innovar o adaptarse a situaciones inéditas. La capacidad humana de crear ideas nuevas y conceptos desde la experiencia es fundamental y se desarrolla interactuando con un entorno dinámico. Las capacidades de aprendizaje adaptativo y formación de conceptos flexibles deberían ser el objetivo principal.

El reto hoy ya no es la matemática de las redes neuronales, sino decidir cómo estructurar y unir los diferentes elementos que constituyen la inteligencia. La alternativa más prometedora es formar sistemas que procesen información de manera unificada, fusionando texto, imagen y acción bajo un mismo marco cognitivo, aunque esto implique perder algo de eficiencia. Sin embargo, lo que se pierde en rendimiento se puede recuperar en mayor adaptabilidad y comprensión del mundo real.

fuente: https://thegradient.pub/agi-is-not-multimodal/