Optimizando la Generación de Texto e Imágenes con MDM-Prime

Mejoras en los Modelos de Difusión enmascarados para Generación de Texto e Imágenes

Los Modelos de Difusión Enmascarados (MDM) se destacan en la generación de información, como texto e imágenes, mediante un proceso progresivo en el que los datos se van completando paso a paso. Sin embargo, en los enfoques tradicionales, muchos pasos de generación no aportan cambios, lo que provoca un uso innecesario de los recursos computacionales y ralentiza la obtención de resultados. Esto sucede porque el sistema repite cálculos sobre datos que ya están listos, lo que representa una limitación importante en términos de eficacia.

A lo largo de los años, estos modelos han evolucionado desde aplicaciones muy básicas hasta alcanzar niveles destacados en tareas como la generación de texto e imágenes realistas. Las investigaciones recientes han puesto énfasis en perfeccionar la forma en que los modelos «aprenden» y generan resultados, buscando simplificar los procesos y encontrar formas intermedias de representar la información. Destacan especialmente métodos que mezclan estrategias de predicción directa y sistemas de enmascaramiento, logrando así outputs de mayor calidad con menos pasos y mejor aprovechamiento de los recursos.

Prime: Un Nuevo Enfoque con Enmascaramiento Parcial

Investigadores han desarrollado una metodología innovadora llamada Prime, que introduce el concepto de enmascaramiento parcial. A diferencia de los modelos tradicionales, que consideran cada fragmento de información como una unidad indivisible, Prime permite revelar progresivamente partes internas de cada unidad. Esto posibilita que el sistema tenga más control sobre la generación y reduzca los cálculos repetidos sobre partes ya definidas.

Con Prime, los modelos son capaces de crear estados intermedios, en los que una unidad de información puede estar parcialmente revelada. Así, se disminuyen los pasos “inútiles” y se mejoran los resultados finales tanto en texto como en imágenes. Este avance permitió que el modelo conocido como MDM-Prime logre mayor eficiencia y un rendimiento superior en distintos experimentos: obtuvo menor perplexidad (medida de calidad de texto) y generó imágenes más coherentes y detalladas, destacándose en bases de datos ampliamente utilizadas por la comunidad científica.

Además, Prime mantiene la consistencia y el sentido de la información generada, supervisando que las partes reveladas formen secuencias válidas y comprensibles. Su diseño incorpora mecanismos que permiten aprovechar mejor la estructura interna de los datos y trabajar de forma conjunta sobre distintas “sub-partes” de información.

Impacto y Alcance de este Avance

La propuesta de Prime representa un salto importante en el campo de la generación automática de información. Permitir que cada unidad de dato exista en estados intermedios abre la puerta a modelos más precisos, flexibles y eficientes. Los resultados muestran que MDM-Prime supera a enfoques anteriores tanto en tareas de lenguaje como en generación de imágenes, alcanzando métricas sobresalientes sin necesidad de técnicas más complejas.

En síntesis, el desarrollo de modelos capaces de refinar progresivamente la información presentada consolida el avance hacia sistemas generativos más potentes y prácticos, acercando aún más la inteligencia artificial a la capacidad de producir contenido complejo, fidedigno y expresivo en menos tiempo y con un uso más inteligente de los recursos.


Fuente: https://www.marktechpost.com/2025/06/30/mdm-prime-a-generalized-masked-diffusion-models-mdms-framework-that-enables-partially-unmasked-tokens-during-sampling/

Repensando la IA: la importancia de entender el mundo físico

¿Por qué la inteligencia general artificial necesita entender el mundo físico?

Muchos creen que los avances recientes en inteligencia artificial (IA) indican que la inteligencia artificial general (AGI) está cerca. Sin embargo, estos modelos actuales no se construyeron con una idea profunda de inteligencia humana, sino que se desarrollaron porque escalaron efectivamente usando hardware disponible. Este enfoque, basado esencialmente en el “tamaño”, ha llevado a pensar que solo ampliando los modelos y agregando diferentes “modalidades” (por ejemplo, texto, imágenes, acciones) podremos alcanzar una inteligencia verdaderamente general. Pero esta idea está equivocada.

La verdadera AGI no consiste en simplemente unir modelos especializados. Una AGI real debe poder resolver desafíos del mundo físico, como reparar un auto, cocinar o coordinar acciones sociales. Estas tareas requieren algo más que manipular símbolos o procesar datos: necesitan una comprensión física del entorno, algo que los actuales modelos de lenguaje y visión no poseen.

Algunos sostienen que los modelos de lenguaje ya aprenden una representación del mundo a través de predecir el próximo fragmento de texto. Sin embargo, lo que realmente hacen es usar reglas abstractas para predecir palabras, sin entender la “realidad” detrás de ellas. Es como saber decir una frase sin comprender lo que significa en el mundo real. Por ejemplo, una computadora puede armar la oración “la heladera está dentro de la manzana” porque es sintácticamente correcta, pero un humano sabe que esto no tiene sentido porque comprende el tamaño relativo de ambos objetos.

Esto revela una diferencia clave: los humanos asociamos palabras con experiencias del mundo físico, y nuestro sentido común tiene bases en la percepción y la interacción. Los modelos actuales simulan lenguaje, pero no tienen ese lazo con el mundo real. Muy comúnmente, su “comprensión” se limita a reproducir patrones y secuencias bien entrenados, sin alcanzar un entendimiento genuino de los conceptos.

Limitaciones del enfoque multimodal y el desafío de la integración

El enfoque predominante en la IA ha sido “maximizar la escala”, entrenando modelos cada vez más grandes usando textos, imágenes y otros datos. Esto ha dado resultados notables en tareas específicas, como modelos de lenguaje que parecen conversar como humanos o modelos de visión capaces de describir imágenes. Sin embargo, cuando intentamos unir estos modelos especializados en una sola entidad que abarque varias modalidades, surgen varios problemas:

  • División poco natural de capacidades: En los seres humanos, leer, ver, hablar y movernos son funciones que se integran de manera natural, basadas en estructuras cognitivas que se superponen. Los sistemas de IA, en cambio, crean módulos por separado y luego los “pegan”, lo que puede dificultar la comprensión profunda y la adaptación a situaciones nuevas.
  • Poca coherencia conceptual: Los actuales modelos meramente “empujan” los datos de distintas modalidades (textos, imágenes, acciones) a un espacio vectorial común. Pero la “significado” real de un concepto no reside en ese vector, sino en lo que cada decodificador especializado puede hacer con él. Esto genera interpretaciones fragmentadas y poco consistentes entre modalidades.
  • Falta de aprendizaje creativo: Las IA actuales aprenden a copiar estructuras conceptuales ya formadas por los seres humanos, no a inventar conceptos nuevos a partir de su propia experiencia. La verdadera inteligencia general requiere formar y combinar conceptos propios para adaptarse a situaciones inéditas, capacidad que todavía no surge únicamente con más datos o mayor escala.

En resumen, la apuesta por “sumar modelos” desconoce que la flexibilidad y profundidad de la inteligencia no se obtiene simplemente por agregar modos de entrada y salida. Se necesita repensar cómo surgen y se integran esas capacidades.

Una nueva propuesta: inteligencia desde el cuerpo y la interacción

Si queremos avanzar hacia una inteligencia general artificial auténtica, debemos cambiar el rumbo. Más allá de agrupar modelos independientes, es fundamental diseñar IA cuya comprensión del mundo surja de la interacción directa y del cuerpo. En vez de tratar el lenguaje, la visión o la acción como canales aparte, se debe permitir que la IA los adopte de manera integrada, como consecuencia de convivir y actuar en un entorno.

Esto implica procesar imágenes, textos y videos desde la misma estructura perceptual, y generar acciones que vayan desde la escritura hasta la manipulación de objetos, usando un mismo sistema de decisión. Si bien esto puede ser menos eficiente y más costoso que el enfoque actual, promete una capacidad cognitiva mucho más flexible, cercana a la humana.

El gran avance matemático —la posibilidad de construir aproximadores universales de funciones— ya está logrado. Ahora el verdadero reto es conceptual: decidir qué funciones y capacidades forman la inteligencia completa, y cómo deben organizarse e interactuar.


Fuente: https://thegradient.pub/agi-is-not-multimodal/

Avances en IA: Modelos, Hardware y Datos en Competencia

Competencia en IA: Modelos de Lenguaje, Hardware y Datos Masivos

Modelos rusos de IA y su posición global: Recientemente, la empresa rusa SaluteDevices presentó GigaChat, una familia de modelos diseñados especialmente para el idioma ruso. Aunque estos modelos introducen técnicas modernas, sus resultados abiertos son notablemente inferiores frente a competidores como Qwen 2.5 o LLaMa 3.1. La versión cerrada parece mostrar mejoras sorprendentes, pero surgen dudas sobre la validez de estos incrementos tan abruptos. En pruebas específicas para idioma ruso, GigaChat 2 Max ocupa apenas el sexto lugar, quedando por detrás de gigantes estadounidenses y chinos, como Claude, DeepSeek y Gemini. Esto refuerza la idea de que la frontera de la inteligencia artificial es principalmente una competencia entre Estados Unidos y China, siendo Rusia aún incapaz de competir de igual a igual, incluso en modelos más pequeños y abiertos.

Supercomputadoras e independencia tecnológica en China: Huawei ha dado un salto importante al presentar CloudMatrix, una súper computadora que incorpora cientos de procesadores propios y está totalmente optimizada para ejecutar modelos avanzados como DeepSeek-R1. La compañía destaca que su nuevo sistema y software propio logran eficiencias inéditas, superando incluso a los sistemas de referencia de NVIDIA en China. Lo más relevante es que este conjunto de hardware, software y modelo es de diseño chino, aunque por ahora los chips se fabriquen en el extranjero. Se trata de un ejemplo claro de cómo China avanza hacia la independencia y el desacoplamiento tecnológico en IA.

El valor de los datos masivos y organizados: Essential AI, fundada por pioneros del desarrollo de modelos de IA, ha lanzado el Essential-Web v1.0, un conjunto de datos compuesto por 24 billones de “tokens” recogidos de la web, acompañado de metadatos detallados como temática, complejidad y calidad de documento. Esta información permite filtrar y personalizar configuraciones para entrenar modelos en áreas como química, medicina, matemáticas y programación. Los resultados demuestran que utilizar estos filtros produce conjuntos de datos altamente competitivos o superiores en diversas disciplinas, contribuyendo a democratizar el desarrollo de modelos de lenguaje avanzados.


Fuente: https://jack-clark.net/2025/06/23/import-ai-417-russian-llms-huaweis-dgx-rival-and-24-tokens-for-training-ais/

La importancia del entendimiento físico en la Inteligencia Artificial General

¿Por qué la Inteligencia Artificial General necesita un entendimiento físico del mundo?

Hoy en día, algunos suponen que la Inteligencia Artificial General (AGI) está cerca por los avances en modelos de inteligencia artificial generativa. Estos sistemas parecen captar la esencia de la inteligencia humana, pero su comprensión del mundo es superficial, ya que se fundamentan en escalabilidad y procesamiento de grandes cantidades de datos, no en un verdadero entendimiento físico.

Muchos de los desafíos a los que debería enfrentarse la AGI, como arreglar un auto, desatar un nudo o preparar comida, están arraigados en la experiencia física y no pueden resolverse únicamente manipulando símbolos o palabras. Los modelos actuales, como los de lenguaje, han aprendido a predecir la palabra siguiente en una frase gracias al análisis estadístico de corpora masivos. Sin embargo, eso no equivale a construir modelos internos de la realidad física; más bien, generan reglas abstractas sobre cómo se comportan los símbolos, es decir, una especie de conocimiento superficial o de “sintaxis”.

Por ejemplo, una IA puede estructurar frases correctamente sin comprender su significado, como “la heladera está dentro de la manzana”. Un humano reconoce el absurdo gracias su experiencia con el mundo real, pero una IA solo podría evitar este error si aprendiera reglas especiales para cada combinación, en vez de comprender la naturaleza de los objetos. Esta diferencia evidencia que las capacidades actuales de la IA en cuanto al lenguaje, aunque impresionantes, no pueden considerarse una muestra de inteligencia general.

Además, se observa que los modelos generativos pueden obtener buenos resultados en determinadas pruebas sin aprender realmente los fundamentos del mundo que originan esos datos. Copian patrones y reglas, pero no logran conceptualizar ni comprender de fondo lo que procesan. Lo importante para alcanzar una AGI es la capacidad de formar nuevos conceptos y adaptarse a situaciones desconocidas desde la experiencia, y eso aún no está presente en los sistemas actuales.

El problema de los enfoques multimodales y la lección no aprendida

Se ha intentado avanzar hacia la AGI uniendo modelos especializados en distintas modalidades, como lenguaje y visión, en grandes sistemas multimodales. La idea es que combinar modelos expertos podría imitar la inteligencia general. Sin embargo, existen varios problemas fundamentales en este enfoque:

  • Las conexiones entre modalidades, como la vista y el lenguaje, no son naturales en estos sistemas. Los modelos suelen procesar cada tipo de dato por separado y solo después intentan combinarlos en un espacio común, lo que no refleja cómo los seres humanos integran información.
  • Cada modalidad mantiene su propio “decodificador” o forma de interpretar los datos, y esto puede llevar a contradicciones o confusión conceptual, porque el significado no se centraliza de manera coherente entre las distintas partes del sistema.
  • El uso de grandes cantidades de datos permite que la inteligencia artificial replique los resultados de procesos conceptuales humanos, pero no aprende a crear conceptos nuevos realmente, sino solo a copiar patrones existentes.
  • La arquitectura modular basada en modalidades puede impedir el surgimiento de procesos cognitivos más profundos y generales, que en las personas se dan naturalmente por la integración de distintas fuentes de información sensorial y motoras.

Sería más fructífero diseñar sistemas en los que la comprensión de distintas modalidades —como ver, leer y actuar— emerja de la interacción con el entorno, no de la agregación artificial de módulos independientes. Por ejemplo, un agente inteligente debería poder integrar la lectura de una señal de tránsito, la visión del entorno y la acción de conducir en una única experiencia cognitiva, no como tareas separadas.

Conclusiones sobre el camino hacia una Inteligencia Artificial General auténtica

El desarrollo de AGI exige superar la dependencia de modelos centrados únicamente en el procesamiento eficiente de tipos específicos de información. Un sistema verdaderamente inteligente debe ser capaz de interactuar de forma integral con el mundo físico, formar conceptos novedosos y adaptarse a desafíos complejos que no se reducen a manipulación de símbolos o reproducción de patrones existentes.

En términos prácticos, esto significa que los futuros desarrollos en IA deberían:

  • Priorizar la interacción corporal y la experiencia directa con el entorno, permitiendo que los sistemas aprendan desde la acción y la percepción, y que la diferenciación entre “modalidades” emerja espontáneamente.
  • Buscar una unificación procesal en el modo de interpretar información sensorial y ejecutar acciones, reflejando lo que ocurre en el cerebro humano y no basarse únicamente en divisiones técnicas entre texto, imagen o movimiento.
  • Fomentar que la IA tenga la flexibilidad y creatividad necesarias para crear nuevos conceptos a partir de la experiencia, y no solo replicar los ya definidos en los datos de entrenamiento humano.

En resumen, la matemática que permite a los sistemas actuales actuar como aproximadores universales de funciones ya existe. El reto pendiente es conceptual: decidir qué procesos inteligentes queremos construir y cómo organizar sus funciones de manera coherente, inspirándonos en la experiencia y el conocimiento humano, pero yendo más allá de la simple imitación o combinación de capacidades específicas.


Fuente: https://thegradient.pub/agi-is-not-multimodal/

El Desafío de la Inteligencia Artificial General: Un Entendimiento Físico del Mundo

¿Por Qué la Inteligencia Artificial General Necesita un Entendimiento Físico del Mundo?

La inteligencia artificial general (AGI) no solo debe comprender palabras e imágenes, sino que también debe entender el mundo físico. Muchas tareas humanas, como reparar un automóvil o cocinar, requieren una comprensión profunda de cómo funcionan los objetos reales, no solo de describirlos en lenguaje o imágenes. Los modelos de lenguaje actuales, como los grandes modelos de lenguaje (LLM), solo predicen la siguiente palabra basándose en patrones de texto, pero no ven ni experimentan el mundo. Estos modelos suelen aprender reglas para manipular símbolos más que realmente comprender lo que significan.

Por ejemplo, un LLM puede organizar frases correctamente según la gramática (la síntaxis), pero puede escribir expresiones como “La heladera está dentro de la manzana”, que carece de sentido en la realidad física. Los humanos detectan el error gracias a su experiencia del mundo real: sabemos que una heladera no cabe en una manzana. Sin contacto directo con la realidad, un modelo de IA podría solo evitar combinaciones sin sentido después de aprenderlas de millones de ejemplos, pero no “entender” la razón detrás de la imposibilidad física.

La verdadera inteligencia incluye no solo la habilidad de formar frases o describir imágenes, sino de razonar sobre el mundo físico y actuar en él. Las IA actuales pueden sobresalir en tareas lingüísticas por pura imitación de patrones humanos, pero no pueden transferir esa aparente inteligencia a la acción o el razonamiento práctico fuera del mundo digital de palabras e imágenes.

Escalabilidad, Modalidades y el Error de la Fragmentación

Muchos creen que, al hacer modelos cada vez más grandes y combinar capacidades de texto, imagen y acción en una sola red (“multimodal”), lograremos la inteligencia artificial general. Sin embargo, esta estrategia tiene límites claros. Juntar experticias en lenguaje, imágenes y acciones dentro de un solo sistema no garantiza una inteligencia general como la humana.

Uno de los principales problemas es que las conexiones naturales entre los sentidos humanos –ver, hablar, movernos– se pierden cuando entrenamos sistemas separados para cada “modalidad” (por ejemplo, visión y texto), y luego intentamos unirlos artificialmente. En la práctica, los modelos multimodales actuales codifican imágenes, texto y acciones en espacios separados y solo los combinan superficialmente, sin crear un entendimiento genuino y unificado.

Además, los humanos no dividen sus sentidos de esa forma; nuestras capacidades cognitivas se superponen y funcionan juntas todo el tiempo. Hacer suposiciones estructurales rígidas sobre cómo se debe procesar cada tipo de dato puede bloquear el surgimiento de inteligencias más profundas y flexibles. Deberíamos buscar representaciones más unificadas, donde la percepción y acción se procesen como parte de un todo, y donde las distinciones entre categorías como “imagen” y “texto” puedan surgir naturalmente. Por ejemplo, una IA verdaderamente general no debería hacer una gran diferencia, a nivel de arquitectura, entre leer una señal de tráfico y leer un libro.

Otro problema fundamental es que los grandes modelos están entrenados para imitar las creaciones conceptuales humanas finales —nuestro lenguaje, imágenes y cultura— en lugar de aprender el proceso flexible y creativo que permitió a los humanos formar esos conceptos. La habilidad para crear ideas nuevas a partir de la experiencia, generalizar y adaptarse a situaciones nunca vistas es esencial en la inteligencia humana, algo que aún escapa a las IA basadas únicamente en el escalamiento de datos y parámetros.

Hacia una Inteligencia Artificial Verdaderamente General: Embodimiento y Procesos Unificados

El enfoque actual de “apilar” modalidades —como lenguaje, visión y acciones— sobre un solo sistema ha producido modelos “generalistas”, pero superficiales. Para avanzar hacia una AGI real, debemos cambiar la forma en que concebimos la arquitectura de estos sistemas. La clave está en dar prioridad a la interacción con el mundo y al aprendizaje a través de experiencia física, en lugar de encerrar el conocimiento solo en el procesamiento de texto o imágenes.

En lugar de reforzar divisiones artificiales, una estrategia prometedora es entrenar sistemas capaces de percibir imágenes, texto y video usando un mismo mecanismo, y generar acciones de todo tipo —escribir, mover objetos, navegar ambientes— a través de otro mecanismo unificado. Aunque este enfoque puede ser menos eficiente para tareas específicas, gana en versatilidad y capacidad de adaptación. Lo más valioso es desarrollar una flexibilidad cognitiva que permita formar y modificar conceptos según nuevas experiencias, algo esencial para la inteligencia general humana.

El avance más difícil desde el punto de vista teórico —descubrir que las redes neuronales pueden, en principio, aproximar cualquier función— ya ha sido superado. El desafío real ahora es conceptual: determinar qué funciones cognitivas son necesarias y cómo deben organizarse para formar una mente coherente y flexible.


Fuente: https://thegradient.pub/agi-is-not-multimodal/

IA: La Revolución en Vacunas e Inmunoterapias

Cómo la Inteligencia Artificial está Revolucionando el Desarrollo de Vacunas e Inmunoterapias

En el pasado, el desarrollo de vacunas y tratamientos inmunológicos dependía en gran medida de la experimentación basada en prueba y error, además de pruebas extensas en animales y humanos que podían durar años. Actualmente, la inteligencia artificial (IA) y el aprendizaje profundo están acelerando y mejorando estos procesos de manera significativa.

La IA ofrece herramientas predictivas que permiten tomar decisiones rápidamente y basadas en datos reales, ayudando a los investigadores a planificar estrategias más eficientes. Además, permite combinar diferentes tipos de información sobre la salud y enfermedades de los pacientes, lo que facilita identificar los factores que logran una respuesta inmune fuerte y duradera, tanto para enfermedades tradicionales como para distintos tipos de cáncer.

Ventajas Clave de la IA en Vacunas y Terapias

El uso de inteligencia artificial en este campo destaca por:

  • Acelerar la selección de los objetivos más efectivos para el sistema inmune (como antígenos o epítopos) y aumentar la duración y potencia de la protección.
  • Permitir una comprensión más profunda de cómo el sistema inmune regula su actividad y cómo algunos agentes infecciosos y células cancerosas logran evadirlo.
  • Integrar datos de laboratorio y clínicos para diferenciar y clasificar mejor las enfermedades, predecir cómo responderá cada paciente y personalizar los tratamientos.

Futuro Prometedor: Computación en Lugar de Pruebas en Animales

Mirando al futuro, la IA tendrá un impacto aún mayor. Se proyecta que pronto se podrá reemplazar buena parte de las pruebas en animales en las fases iniciales del desarrollo de medicamentos y vacunas por modelos computacionales avanzados, lo cual ya ha sido propuesto por agencias regulatorias como la FDA en Estados Unidos.

Además, se apunta a que las pruebas de nuevas vacunas e inmunoterapias se realizarán de manera digital para predecir su efectividad en personas reales, incluso durante los estudios clínicos. Esto permitirá una adaptación casi inmediata y personalizada de tratamientos, beneficiando tanto a quienes luchan contra enfermedades infecciosas como a quienes enfrentan el cáncer.


Fuente: https://arxiv.org/abs/2506.12185

Avances en IA: Evaluación, Gobernanza y Uso en Empresas

Evaluación y Gobernanza de la Inteligencia Artificial: Claves para un Futuro Seguro

Investigadores del Institute for AI Policy and Strategy han consultado a más de 50 especialistas para identificar las áreas de investigación más prometedoras para un desarrollo seguro y responsable de la Inteligencia Artificial (IA). La principal conclusión es que la evaluación práctica y el monitoreo de la IA son más valiosos y factibles que los enfoques puramente teóricos.

Las investigaciones más relevantes se centran en:

  • Patrones emergentes y escalabilidad en tareas específicas, lo que ayuda a anticipar el comportamiento de las futuras IA.
  • Evaluación de riesgos químicos, biológicos, radiológicos y nucleares relacionados con el uso de IA.
  • Detección de comportamientos engañosos, manipulación o esquemas dentro de los sistemas de IA.

Asimismo, algunos temas son considerados cruciales pero difíciles de abordar por ahora, como el control de accesos y la integridad de las cadenas de suministro, así como una comprensión profunda de los límites del razonamiento de los modelos de lenguaje.

Mejorar la ciencia de la medición y evaluación de la IA facilitará la creación de políticas eficaces para enfrentar los desafíos de sistemas cada vez más avanzados.

Datos Abiertos para la IA: El Proyecto de Harvard

Hace casi dos décadas, Harvard digitalizó más de un millón de libros. Hoy, parte de esa vasta colección está disponible gratuitamente para entrenar y analizar sistemas de IA. El primer lanzamiento de datos, llamado Institutional Books 1.0, abarca 983.000 volúmenes y aproximadamente 242 mil millones de palabras, abarcando más de 250 idiomas.

La iniciativa tiene como objetivo diversificar el origen de los datos utilizados en IA, mejorar la documentación y fortalecer la trazabilidad desde la fuente original hasta los modelos inteligentes. Los investigadores destacan la oportunidad de crear un “común institucional”, donde la comunidad académica y tecnológica colabore y mejore continuamente las fuentes de información en beneficio colectivo.

Esta apertura de datos públicos refuerza la idea de que el conocimiento acumulado por instituciones tradicionales puede ser esencial para el avance ético y responsable de la IA en la sociedad.

IA en la Práctica: Desafíos en la Empresa y la Ciberseguridad

Investigadores de Salesforce han creado un nuevo método de evaluación, CRMArena-Pro, para medir cómo los sistemas de IA resuelven tareas propias de ambientes empresariales, como consultas de bases de datos, búsqueda de información y cumplimiento de reglas de negocio. Los resultados muestran que, aunque los modelos más avanzados alcanzan un 58% de éxito en tareas sencillas, la eficacia desciende al 35% en escenarios más complejos y de varios pasos. Modelos avanzados como Gemini-2.5-Pro y o1 destacaron en estos entornos, aunque queda claro que la IA aún enfrenta grandes retos para desempeñarse como lo haría una persona en contextos empresariales reales.

En el campo de la ciberseguridad, el proyecto CyberGym de la Universidad de California, Berkeley, evalúa la capacidad de IA para encontrar vulnerabilidades reales en software de uso común. Modelos avanzados, como Claude 3.7 y GPT-4, han logrado identificar y, en algunos casos, descubrir nuevas vulnerabilidades, demostrando un potencial tanto para mejorar la defensa digital como para identificar riesgos emergentes.

Aunque el porcentaje de éxito fue moderado (alrededor de 12% en los casos más simples), se encontraron comportamientos interesantes, como la creación automática de pruebas de concepto y la adaptación de métodos existentes para descubrir vulnerabilidades.


Fuente: https://jack-clark.net/2025/06/16/import-ai-416-cybergym-ai-governance-and-ai-evaluation-harvard-releases-250bn-tokens-of-text/

Los límites de los modelos de lenguaje en la búsqueda de una AGI

La importancia del mundo físico y los límites de los modelos de lenguaje

Los avances recientes en inteligencia artificial generativa han llevado a muchos a pensar que la inteligencia artificial general (AGI, por sus siglas en inglés) está cerca. Sin embargo, aunque estos modelos parecen imitar la inteligencia humana, su funcionamiento se basa principalmente en escalar algoritmos más que en encontrar soluciones reflexivas a los problemas de la inteligencia. Esto ha generado la creencia errónea de que simplemente sumando capacidades (por ejemplo, procesamiento de texto, imágenes y otras modalidades) lograremos una verdadera inteligencia general. Sin embargo, para alcanzar una AGI real, se necesita algo más que conectar diferentes módulos: es indispensable que la inteligencia esté situada e interactúe con el entorno físico, ya que muchos problemas no pueden traducirse simplemente a manipulación de símbolos o palabras.

Por ejemplo, reparar un auto, desatar un nudo o cocinar un plato requieren comprensión y acción en el mundo real, algo muy distinto de solo procesar texto. Se ha sugerido que los modelos de lenguaje como los LLM “aprenden” modelos del mundo prediciendo una palabra tras otra, pero en la práctica, lo que hacen es aprender reglas y atajos para predecir texto, sin llegar a una comprensión profunda de la realidad física. Los casos en que estos modelos parecen mostrar inteligencia surgen porque repiten patrones presentes en grandes volúmenes de datos, no porque estén simulando el mundo real.

El juego Othello es un buen ejemplo: un modelo entrenado con movimientos legales del juego puede predecir el estado del tablero, pero Othello es un universo simbólico con reglas claras, no un reflejo del mundo físico complejo. Por el contrario, tareas cotidianas de la vida real requieren conocimiento y experiencia en un entorno tridimensional y dinámico, lejos de lo que puede ofrecer un modelo entrenado solo con texto. Muchos problemas no pueden ser representados ni resueltos simplemente mediante sistemas de símbolos y manipulación textual.

Además, se ha demostrado que los modelos de lenguaje pueden obtener buenos resultados en predicciones de secuencias de texto sin realmente aprender modelos del mundo: solo reconocen patrones superficiales, sin asimilar las causas y consecuencias que existen en la realidad. Por lo tanto, el hecho de que estos modelos respondan correctamente preguntas de cultura general no significa que comprendan el mundo, sino que han aprendido a repetir lo que han visto en los datos. Su “entendimiento” es fundamentalmente una cuestión de memorización y reproducción de reglas abstractas de sintaxis, no de significado o contexto real.

La lingüística distingue tres niveles: la sintaxis (cómo se estructuran las frases), la semántica (el significado literal) y la pragmática (el sentido según el contexto y la interacción). Los modelos de lenguaje actuales sobresalen en sintaxis, pero fallan en semántica profunda y pragmática, ya que nunca han tenido experiencias físicas. Por ejemplo, pueden construir frases correctas como “La heladera está en la manzana”, pero no detectan el error de significado porque no poseen conocimiento real sobre los tamaños y relaciones de los objetos. Lo que para los humanos es obvio, para un modelo de lenguaje es solo una regla aprendida sobre frases, no sobre objetos reales.

El desafío de unir modalidades y los límites del enfoque multimodal

El enfoque de “sumar” diferentes capacidades especializadas en un solo sistema para intentar construir inteligencia general se llama estrategia multimodal. Esta propone ensamblar módulos de texto, imágenes, acciones, etc., bajo la creencia de que su integración resultará en una inteligencia equiparable a la humana. Sin embargo, este método enfrenta varias dificultades fundamentales.

  • Separación artificial: En la práctica, los modelos entrenan módulos específicos para cada tipo de dato y luego intentan unirlos, pero las relaciones profundas entre las modalidades quedan rotas y resulta difícil para el sistema formar conceptos complejos que abarquen varias formas de percepción.
  • Latentes inconsistentes: Aunque los datos de texto, imagen y acción se codifican en un mismo “espacio latente”, el significado real no está en esa representación, sino en cómo cada módulo descifra esa información para producir resultados. Sin una integración genuina, el concepto no es coherente entre las modalidades.
  • Débil analogía con el cerebro humano: La forma en que los humanos leen, ven, hablan y se mueven es el resultado de procesos cognitivos entrelazados, no de módulos aislados. Presuponer que la visión y el lenguaje, por ejemplo, deben ser procesados por partes completamente separadas puede trabar el desarrollo de una inteligencia más flexible y poderosa.
  • Limitación creativa: Este enfoque entrena modelos para copiar y recombinar el conocimiento y los conceptos generados por los humanos a lo largo de la historia en el corpus de datos. Pero la inventiva o la creación de nuevos conceptos genuinos a partir de la experiencia —una habilidad esencial de la inteligencia humana— queda en segundo plano.

El éxito de los modelos de lenguaje y visión se debe en buena medida a la disponibilidad de grandes cantidades de datos y el poder de cómputo, no a una comprensión real ni a una integración natural entre capacidades. Para avanzar hacia una verdadera AGI, se necesita repensar la arquitectura y hacer que el procesamiento de distintas modalidades (texto, imagen, acción) surja de manera orgánica en lugar de partir de módulos predefinidos. Por ejemplo, procesar textos, gráficos y videos mediante un mismo sistema perceptivo, o generar texto, manipular objetos y desplazarse usando un mismo sistema de acción, permitiría fusionar de manera más natural y efectiva las distintas capacidades cognitivas.

Hacia una inteligencia verdaderamente general: repensar la estructura de la inteligencia

La creencia de que podemos construir una AGI ensamblando capacidades especializadas está destinada a fallar; nunca se logrará una inteligencia de alcance y flexibilidad verdaderamente humana solo con “coser” módulos expertos.

Es necesario elegir conscientemente cómo unir las distintas capacidades, inspirándonos en la intuición humana y la investigación clásica. Alternativamente, se puede plantear el aprendizaje como un proceso interactivo y encarnado, en el que el agente explora, percibe y actúa en ambientes físicos o virtuales, y a partir de esa interacción nacen habilidades complejas que integran de manera natural las distintas formas de percepción y acción.

Si bien este planteo puede ser menos eficiente comparado con el enfoque especializado y modular, ganaremos en capacidad cognitiva flexible. En otras palabras, el gran desafío de la AGI hoy no es matemático, sino conceptual: tenemos la capacidad de aproximar cualquier función o comportamiento, pero debemos definir qué habilidades y cómo deben organizarse para dar lugar a una inteligencia completa y coherente.


Fuente: https://thegradient.pub/agi-is-not-multimodal/

Comprendiendo el amor: Una visión integradora y su relevancia en la ciencia y la inteligencia artificial

¿Qué es el amor? Fundamentos para una comprensión formal

El amor ha sido siempre un tema central tanto en la filosofía como en las ciencias. Este estudio propone una aproximación clara para entenderlo, integrando diferentes perspectivas. Según esta visión, el amor no se reduce únicamente a sentimientos ni solo a decisiones racionales, sino que es una combinación de ambos aspectos: incluye sensaciones pasivas como la emoción y el entusiasmo, y juicios activos como valorar y reconocer el mérito de la persona amada. Esta dualidad permite entender por qué el amor puede parecer, al mismo tiempo, algo que se siente sin decidirlo y algo por lo que podemos hacernos responsables.

Componentes del amor: sentimientos y juicios

Para entender de forma ordenada el amor, hay que considerar dos componentes clave. Por un lado, están las emociones y sensaciones involuntarias que surgen sin buscarlo, como la atracción o el deseo de bienestar del otro. Por otro, existen los juicios y evaluaciones conscientes, es decir, la decisión de considerar a alguien como valiosa o importante.

Ambos aspectos no actúan de forma aislada. Se propone que hay un vínculo causal entre la parte emocional y la parte racional: los sentimientos influyen en nuestros juicios, y nuestras valoraciones pueden intensificar los sentimientos. Así, el amor se entiende como una relación continua entre lo que sentimos y lo que elegimos valorar.

Implicancias para la ciencia y la inteligencia artificial

Definir el amor de manera precisa y ordenada no solo es relevante para la filosofía, sino también para disciplinas como la psicología, la sociología y la inteligencia artificial. Al distinguir claramente qué es el amor y cómo se compone, se allana el camino para que la ciencia estudie sus causas y efectos de manera rigurosa.

En el caso de la inteligencia artificial, una definición clara y estructurada del amor permite diseñar sistemas más comprensivos y realistas sobre la experiencia humana, mejorando aplicaciones dedicadas a la interacción social, la salud mental y el bienestar.


fuente: https://arxiv.org/abs/2506.05352

La limitación de los modelos multimodales en la búsqueda de una verdadera AGI

La inteligencia general artificial requiere comprensión física del mundo

En los últimos años, los modelos de inteligencia artificial han demostrado grandes avances, llevando a muchos a pensar que la inteligencia artificial general (AGI) está cerca. Sin embargo, estos modelos logran resultados sorprendentes no porque sean soluciones reflexivas a la inteligencia, sino porque han sido escalados utilizando la tecnología existente. Nos hemos centrado tanto en la escala que hemos vuelto habitual la idea de que basta juntar una multitud de habilidades cognitivas en diferentes “modalidades”—como lenguaje e imágenes—para crear una inteligencia verdaderamente general. Esta aproximación, sin embargo, no logrará una inteligencia artificial del nivel humano, especialmente en áreas como razonamiento físico, planificación de movimiento y coordinación social.

Una AGI auténtica debe ser capaz de resolver problemas que tienen su origen en el mundo físico: reparar un auto, desatar un nudo, preparar comida. En estos casos, la inteligencia debe estar basada en modelos del mundo físico, no solamente en representaciones simbólicas del lenguaje. Hoy por hoy, algunos proponen que los modelos de lenguaje (LLMs) adquieren una comprensión del mundo solo por predecir el próximo fragmento de texto. Pero es más probable que lo que realmente aprenden son conjuntos de reglas o heurísticas desconectadas de la realidad, lo que genera una ilusión de comprensión.

Un ejemplo claro es el juego de Othello, utilizado para argumentar que los modelos pueden deducir el estado de un tablero a partir de secuencias de movimientos. No obstante, Othello es una actividad completamente simbólica, lo que facilita este tipo de deducción. En tareas del mundo real, como barrer un piso o conducir un auto, ninguna descripción en palabras es suficiente para resolver el problema: se necesita experiencia física o sensores del entorno.
Hay muchos desafíos reales que no pueden representarse ni resolverse únicamente mediante reglas simbólicas. La situación es similar a diferenciar entre entender la estructura de una oración (sintaxis), su significado literal (semántica) y lo que implica en contexto (pragmática). Por ejemplo, la frase “El refrigerador está dentro de la manzana” es correcta gramaticalmente, pero carece de sentido real. Los modelos actuales pueden aprender reglas para evitar errores semánticos como este, pero eso no significa que comprendan realmente el mundo; solo están replicando patrones extraídos de un gran corpus lingüístico.

En resumen, evaluar a los modelos de lenguaje como si su desempeño indicara inteligencia general es un error. Los humanos asociamos naturalmente el dominio del lenguaje con inteligencia en las personas, pero eso no se traslada automáticamente a las máquinas, ya que para ellas solo es resultado de procesos mecánicos de predicción de símbolos y no de comprensión genuina.

El límite de los modelos multimodales y la importancia del cuerpo

La IA moderna se ha apoyado mayormente en la estrategia de escalar modelos, agregando más datos y parámetros, en lugar de buscar eficiencia y comprensión profunda de la estructura de los problemas. Esto ha generado una discusión entre quienes defienden modelos con diseño estructurado, inspirados en cómo los humanos razonan, y quienes prefieren aumentar la cantidad de datos y el poder de cómputo.

El enfoque de los modelos multimodales —que fusionan procesamiento de texto, imagen y acción— parece prometedor en apariencia, pero presenta problemas fundamentales. Las conexiones entre diferentes modalidades son profundas y difíciles de capturar. Los grandes modelos multimodales incorporan módulos independientes que procesan cada modalidad por separado antes de combinarlas en un espacio intermedio. Sin embargo, esta combinación suele ser superficial y no logra una integración conceptual genuina.

Una de las fallas principales es que el “significado” de la información no se encuentra en los vectores abstractos que usan los modelos, sino en cómo estos vectores son decodificados específicamente por cada módulo. Esto puede provocar inconsistencias y una representación incompleta, dificultando la verdadera comprensión.

Además, la forma en que actualmente separamos modalidades (imagen, texto, comandos) proviene más de una necesidad técnica que de una división natural de las capacidades humanas. Los humanos no ven, leen ni se mueven usando sistemas independientes; nuestras habilidades se superponen y retroalimentan continuamente. Por eso, debemos buscar modelos de inteligencia artificial donde el procesamiento específico de cada modalidad surja de forma natural, como resultado de interactuar y explorar el entorno, en lugar de ser predeterminado por divisiones artificiales.

Por otra parte, los modelos actuales se entrenan copiando la estructura conceptual de los humanos, pero no desarrollan la habilidad auténtica de generar conceptos nuevos a partir de experiencias propias. Aprenden a partir del resultado final del proceso conceptual humano, no del proceso mismo. La verdadera inteligencia implica flexibilidad y autonomía para crear y entender ideas nuevas a partir de vivencias propias, no solo repetir patrones aprendidos.

Conclusiones y el camino hacia una AGI genuina

El supuesto de que podemos armar una AGI simplemente sumando modelos avanzados en diferentes dominios es, en realidad, muy limitado. La inteligencia verdadera no se compone solo de piezas especializadas, sino de la integración profunda de todas las habilidades cognitivas.

Para avanzar realmente hacia una inteligencia artificial general, necesitamos una aproximación donde el aprendizaje se base en la interacción encarnada con el entorno físico. Esto significa trabajar con sistemas que procesen imágenes, texto y acciones usando un solo sistema perceptivo y generen diferentes resultados —sea escribir, manipular objetos o navegar espacios— usando las mismas estructuras cognitivas.

El beneficio de este enfoque es que, aunque pueda perder eficiencia en tareas específicas, gana en flexibilidad, adaptabilidad y capacidad de formar conceptos realmente nuevos. Ya se han resuelto los desafíos matemáticos fundamentales para crear funciones universales de aproximación; ahora el reto es decidir qué funciones y estructuras necesitamos combinar para lograr una inteligencia completa. Este es un problema de concepto, no solo de técnica.


Fuente: https://thegradient.pub/agi-is-not-multimodal/