El desafío de la inteligencia artificial general
Muchos creen que la inteligencia artificial general (AGI) está cerca, gracias a modelos capaces de procesar texto, imágenes y otros tipos de información. Sin embargo, estos sistemas logran resultados sorprendentes no por entender el mundo como los humanos, sino por trabajar a gran escala con enormes cantidades de datos. Aunque imiten destrezas humanas, no tienen una comprensión real del mundo físico ni pueden resolver problemas prácticos cotidianos, como arreglar un auto o preparar comida. La verdadera AGI debería ser capaz de actuar y razonar en el mundo real, no solo manipular símbolos o palabras.
En realidad, los modelos actuales suelen aprender reglas superficiales para predecir cómo sigue un texto, sin lograr una comprensión profunda de lo que las palabras representan. A pesar de su destreza en responder preguntas o resumir textos, no poseen un modelo interno del mundo, como sí lo hacen los humanos. La diferencia se nota cuando se enfrentan a problemas que requieren sentido común, contexto físico o razonamiento práctico, donde sus limitaciones quedan al descubierto.
Escalabilidad no es inteligencia
En la carrera por construir AGI, se ha apostado a escalar modelos multimodales, que combinan distintas fuentes de información. Sin embargo, unir modelos que procesan sólo lenguaje, sólo imágenes o sólo acciones no genera verdadera inteligencia general. La clave no está en sumar más datos o recursos, sino en crear sistemas capaces de interactuar con el entorno y aprender de la experiencia, tal como lo hacemos los humanos desde pequeños.
El aprendizaje humano no se segmenta en modalidades aisladas. Nuestra visión, lenguaje y movimiento están profundamente conectados y se desarrollan juntos, permitiendo una comprensión flexible y adaptativa. Pretender que la inteligencia se puede construir uniendo piezas sueltas limita la capacidad de las máquinas para formar conceptos nuevos y actuar de manera creativa ante desafíos desconocidos.
Los avances más importantes en inteligencia artificial han venido de repensar la estructura de los modelos, inspirándose en la cognición humana. Introducir mecanismos simples, pero potentes, como lo fueron las redes convolucionales para la visión o el mecanismo de atención para el lenguaje, fue resultado de usar la intuición sobre cómo resolvemos los problemas. Solo escalar modelos, sin reflexionar sobre cómo unir las diversas capacidades, no nos acercará al objetivo de la AGI.
Hacia una inteligencia encarnada y flexible
Para lograr una AGI completa, debemos dejar de considerar el lenguaje, la visión y la acción como compartimentos aislados y pasar a diseños donde estas capacidades emergen naturalmente de la interacción con el entorno. La inteligencia humana se destaca en su flexibilidad y capacidad de inventar nuevos conceptos a partir de experiencias y pocos ejemplos. En cambio, los modelos actuales sólo repiten patrones aprendidos, sin verdadera capacidad de adaptación creativa.
Un enfoque prometedor sería entrenar modelos que perciban y actúen en el mundo usando los mismos sistemas para textos, imágenes o acciones, como lo hace el cerebro humano. Aunque este camino puede ser más lento y complejo que seguir escalando modelos multimodales, ofrece la posibilidad de alcanzar una inteligencia más general, coherente y adaptable.
El gran desafío ahora es comprender qué funciones deben tener estos sistemas y cómo organizarlas para formar una inteligencia de verdad. La solución está menos en la matemática y más en repensar los conceptos mismos de inteligencia y comprensión.