Skip to content

Por qué la AGI Real No Es Multimodal

¿Por qué la Inteligencia Artificial General no puede ser solo multimodal?

En los últimos tiempos, los modelos de inteligencia artificial han avanzado sorprendentemente, al punto que algunos creen que estamos cerca de alcanzar la Inteligencia Artificial General (AGI). Estos modelos trabajan combinando múltiples «modalidades» como texto, imágenes y acciones, lo que sugiere que basta juntar todas estas piezas para construir algo verdaderamente inteligente. Sin embargo, este enfoque tiene serias limitaciones.

Una verdadera inteligencia general debe poder resolver problemas vinculados con el mundo físico, como reparar un auto o preparar comida, cosas que requieren comprender la realidad más allá de simples símbolos. Los modelos actuales aprenden a predecir la próxima palabra en un texto, pero no desarrollan un entendimiento genuino del mundo, sino que emplean atajos y reglas para imitar nuestras formas de comunicación.Esto da una ilusión de comprensión, pero lo cierto es que los sistemas sólo manipulan símbolos sin conexión real con nuestras vivencias físicas.

Por ejemplo, los humanos reconocemos absurdos como «el refrigerador está dentro de la manzana» porque sabemos que un refrigerador es más grande que una manzana. Los modelos, en cambio, podrían aprender miles de reglas específicas para evitar ese error sin realmente captar el sentido del mundo. La clave de la inteligencia humana está en cómo fusionamos sintaxis (estructura de frases), semántica (significado) y pragmática (contexto), capacidades que hasta ahora las IA artificiales solo pueden imitar superficialmente.

Los límites de escalar y combinar modalidades

El éxito de los modelos actuales no se basa en cómo entienden el mundo, sino en su capacidad de escalar, procesando grandes volúmenes de datos. Este método es eficiente para tareas específicas pero no para generar un entendimiento general. Pensar que solo hace falta entrenar modelos cada vez más grandes y pegar juntos módulos de visión, lenguaje y acción es, en realidad, poco realista.

La idea de unir diferentes modalidades, como visión y lenguaje, suele implicar juntar representaciones distintas en un mismo espacio, esperando que se genere sentido común entre ellas. Sin embargo, la información relevante se dispersa y depende de decodificadores específicos para cada tipo de dato. Así, la «comprensión» se vuelve superficial y fragmentada.

Además, las divisiones tradicionales que establecemos (como imágenes versus texto) no se corresponden necesariamente con la forma en que un agente realmente general debería percibir y actuar en el mundo. Nuestras propias capacidades de ver, leer y movernos surgen de procesos cognitivos profundamente entrelazados. Si seguimos diseñando inteligencias desde compartimentos estancos, seguimos limitando lo que pueden hacer.

Una alternativa sería procesar todos los datos, sin importar su fuente, de forma unificada, dejando que las especializaciones emerjan naturalmente mediante la interacción y la experimentación. En vez de sumar inteligencias estrechas, la clave es crear sistemas que aprendan de la experiencia para generar sus propios conceptos y modos de interacción, sanando la brecha entre el conocimiento humano y el artificial.

Conclusión

Esperar que la escala y la combinación de módulos estrechos produzca una AGI es ingenuo. Si queremos inteligencias realmente flexibles, debemos repensar la forma en que se integran las modalidades, inspirándonos en cómo los humanos resuelven problemas y conectan lo que ven, sienten y entienden. También podemos volver a los enfoques basados en la interacción corporal y el aprendizaje, donde las distinciones entre imágenes, texto y acción surgen como resultado del proceso intelectual, no como un punto de partida impuesto.

En resumen, ya dominamos la tecnología que permite a estas IAs aproximar cualquier función matemática. El gran reto ahora es descubrir qué funciones necesitamos y cómo organizarlas para formar una inteligencia verdaderamente general y cohesionada. Este desafío es conceptual, no solo técnico.


fuente: https://thegradient.pub/agi-is-not-multimodal/

Related Post

La revolución de Carbon Robotics en el campo

Innovación en la Identificación de Malezas La agricultura moderna se enfrenta al constante desafío de controlar malezas que compiten con los cultivos por nutrientes, agua y espacio. Tradicionalmente, reconocer y

El Futuro del Trabajo y la IA: Desafíos y Oportunidades

Automatización de las pruebas matemáticas y colaboración entre humanos e inteligencia artificial En la actualidad, la inteligencia artificial (IA) está revolucionando la manera en que abordamos la resolución de problemas

HPC-Ops: Eficiencia en modelos de lenguaje masivos

¿Qué es HPC-Ops y por qué es relevante? HPC-Ops es una biblioteca de operadores especialmente diseñada para hacer más eficientes y veloces los modelos de lenguaje de gran tamaño. Creado

Powering over 1.5 million websites worldwide

Our set he for firmament morning sixth subdue darkness creeping gathered divide our let god moving.

Or

+10 378 267 3782

Contanos tu necesidad

Completá el formulario y nos pondremos en contacto a la brevededad para ayudarte a dar el siguiente paso.