¿Por qué la inteligencia artificial necesita cuerpo?

¿Por qué la Inteligencia Artificial General no es solo multimodalidad?

En los últimos tiempos, el avance de la inteligencia artificial ha deslumbrado a muchos, al punto de pensar que alcanzar una inteligencia artificial general (AGI) está a la vuelta de la esquina. Sin embargo, aunque los modelos actuales parecen imitar nuestra forma de pensar, lo cierto es que logran sus resultados principalmente por la gran escala de datos y poder de cómputo, no porque tengan una comprensión profunda del mundo físico o del sentido de lo que hacen.

Una AGI real debería poder resolver problemas en cualquier ámbito, en especial aquellos que provienen de la vida diaria: reparar una máquina, preparar una comida, o coordinarse con otras personas. Para esto, se necesita un tipo de inteligencia arraigada en el mundo físico, no solo en el manejo de símbolos o palabras. Los modelos actuales, como los LLMs (grandes modelos de lenguaje), no tienen acceso directo a la realidad física, por lo que su comprensión suele ser superficial y basada en reglas abstractas internas en lugar de un verdadero entendimiento.

Esta diferencia se explica con nociones de la lingüística como la sintaxis (reglas de estructura), la semántica (significado real) y la pragmática (sentido en contexto). Un modelo puede armar frases correctas (sintaxis) sin comprender realmente su significado en el mundo (semántica) o el contexto social (pragmática). Por ejemplo, decir “el refrigerador está dentro de la manzana” es una oración correcta, pero carece de sentido para cualquier persona, dado su conocimiento físico.

El problema de unir modalidades aisladas

Una tendencia reciente intenta crear AGI conectando diferentes capacidades (como visión, lenguaje y acción) en grandes modelos llamados multimodales. La idea parece lógica: si una máquina puede hablar, ver imágenes y realizar acciones, podrá hacer de todo. Sin embargo, esta estrategia tiene limitaciones. Cada modalidad (como “ver” o “leer”) se maneja como un módulo independiente, y la unión entre ellas suele ser artificial y poco flexible. Por ejemplo, los humanos no diferenciamos tanto entre leer y ver; muchas veces, las dos capacidades se mezclan y se apoyan mutuamente en nuestro cerebro.

Además, los métodos actuales entrenan a las máquinas a imitar los resultados ya logrados por los humanos, pero no les enseñan el proceso de crear nuevos conceptos o soluciones genuinas. En consecuencia, estos modelos pueden parecer inteligentes, pero su capacidad real de adaptación y aprendizaje sigue siendo limitada cuando deben enfrentar problemas no previstos en sus datos de entrenamiento. Si insistimos en unir capacidades de manera forzada, el resultado será una inteligencia artificial fragmentada y limitada.

El valor de la interacción y la experiencia

Para que una inteligencia artificial alcance una generalidad real, necesita abandonar la división rígida de modalidades y centrarse en la interacción con el entorno. Es decir, no basta con juntar módulos de visión, lenguaje y movimiento: es esencial que el conocimiento surja de la experiencia directa y del contacto con el mundo real. Así, el procesamiento específico de cada modalidad debe emerger naturalmente de la propia experiencia, tal como sucede en los seres humanos cuando aprendemos a hablar, ver, actuar y colaborar desde pequeños.

En vez de armar una “Frankenstein digital” sumando habilidades separadas, deberíamos diseñar sistemas donde las capacidades surjan y se integren a partir de la interacción y la experimentación. Esto podría requerir sacrificar eficiencia a corto plazo, pero el resultado sería una inteligencia mucho más flexible, adaptable y verdaderamente general. En definitiva, ya contamos con la base matemática para crear estas capacidades, pero el verdadero reto consiste en combinar y organizar estas funciones de manera coherente y natural.


Fuente: https://thegradient.pub/agi-is-not-multimodal/