GitHub Copilot Chat: La herramienta de IA gratuita para VS Code

Características principales de GitHub Copilot Chat para VS Code

Microsoft ha decidido liberar y hacer gratuito el complemento GitHub Copilot Chat para Visual Studio Code, permitiendo que todos los desarrolladores accedan a sus herramientas de asistencia de código basadas en inteligencia artificial. Bajo la licencia MIT, este avance ofrece mayor transparencia y posibilidades de personalización en el entorno de programación.

El complemento incluye cuatro componentes clave que trabajan juntos para mejorar la experiencia de desarrollo:

  • Agent Mode: Automatiza tareas de programación complejas, como diagnosticar errores, ejecutar pruebas y corregir fallos de manera autónoma. Por ejemplo, puede encargarse de implementar una capa de caché dividiendo el proceso en subtareas sin intervención manual.
  • Edit Mode: Permite realizar ediciones en múltiples archivos usando comandos en lenguaje natural. Con instrucciones simples como “Agrega registros a todas las solicitudes HTTP”, el sistema actualiza todo el proyecto, mostrando un avance en vivo de los cambios antes de aplicarlos.
  • Code Suggestions: Ofrece completaciones predictivas de código que entienden el contexto del proyecto y el estilo del programador, sugiriendo las siguientes acciones más razonables para avanzar de manera fluida en la escritura y refactorización de código.
  • Chat Integration: Brinda un chat integrado en el editor que responde preguntas específicas del código, como “¿Por qué falla esta prueba?” u “¿Qué hace esta función?”, utilizando el propio contenido del proyecto. Esto facilita la documentación y el soporte en tiempo real sin dejar Visual Studio Code.

Ventajas para la comunidad de desarrolladores

La liberación de Copilot Chat bajo una licencia abierta aporta importantes beneficios. Las empresas y usuarios pueden ahora autoalojar y personalizar la extensión según sus propias necesidades, incluso en entornos con restricciones o proyectos privados. Además, se fomenta la colaboración y mejora continua gracias a las aportaciones de la comunidad, quienes pueden contribuir con nuevas funciones o mejoras de rendimiento.

Este cambio también favorece a estudiantes y desarrolladores en entornos educativos o con bajos recursos, al eliminar la barrera económica de la suscripción y democratizar el acceso a herramientas modernas y avanzadas de IA para la programación.

Impacto en la experiencia de desarrollo

Al ofrecer funciones avanzadas sin costo, Microsoft transforma la manera de trabajar con código en Visual Studio Code. Herramientas que antes eran exclusivas para usuarios pagos ahora están disponibles para todo el mundo, mejorando la productividad y la colaboración.

Con la integración de Agent Mode, Edit Mode, Code Suggestions y el chat contextual, la experiencia de desarrollo se vuelve más rápida e inteligente, permitiendo resolver problemas y avanzar en los proyectos de forma eficiente y sencilla.


Fuente: https://www.marktechpost.com/2025/07/09/microsoft-open-sources-github-copilot-chat-extension-for-vs-code-now-free-for-all-developers/

El verdadero desafío de la AGI: integrando percepción, acción y razonamiento

¿Qué es la Inteligencia Artificial General y por qué no basta con sumar modalidades?

Muchas personas piensan que si un sistema de inteligencia artificial puede manejar varios tipos de información—como texto, imágenes y acciones—y unirlos en un solo modelo, entonces estamos muy cerca de lograr una Inteligencia Artificial General (AGI). Sin embargo, esto es un error. Un AGI auténtico no solo debe comprender y procesar símbolos o palabras, sino que también debe actuar con sentido común en el mundo físico. Tareas como reparar un auto, preparar comida o resolver problemas prácticos requieren una comprensión mucho más profunda de la realidad, que va más allá de la manipulación de palabras o imágenes.

Hoy, los modelos de lenguaje avanzados como los LLMs (grandes modelos de lenguaje) parecen muy inteligentes porque pueden predecir la siguiente palabra de un texto con gran acierto. Algunos afirman que estos modelos desarrollan un “modelo del mundo”, una representación interna de cómo funciona la realidad. Sin embargo, en la práctica, estos sistemas suelen aprender reglas y patrones lingüísticos superficiales, no una comprensión real del mundo físico. Por ejemplo, pueden aprender que ciertas palabras suelen ir juntas, pero esto no significa que realmente comprendan el significado profundo detrás de esas palabras o frases.

Esta diferencia se vuelve evidente con ejemplos simples. Los humanos, al escuchar una frase como «El refrigerador está dentro de la manzana», reconocen de inmediato que es absurda porque saben que un refrigerador es más grande que una manzana. Los modelos, en cambio, podrían validar la frase si han visto patrones similares, aunque carezcan de sentido físico o práctico. Comprender la realidad implica mucho más que identificar patrones en grandes volúmenes de texto e imágenes.

Un desafío clave es que muchos modelos actuales intentan unir diferentes tipos de información («modalidades») como si fueran bloques independientes que solo hay que pegar. Pero la inteligencia humana no funciona así. Nuestras percepciones, acciones y razonamientos están completamente entrelazados. Por ejemplo, al leer un cartel o escuchar una instrucción, los humanos integran lo visual, lo auditivo y sus experiencias previas en una sola interpretación coherente para luego actuar de manera eficaz. Los modelos multimodales actuales, en cambio, suelen compartimentalizar la información, lo que limita su flexibilidad y su verdadera comprensión.


¿Por qué la escala y la simple combinación de modalidades no nos llevarán a la AGI?

En los últimos años se ha impulsado un enfoque llamado maximalismo por escala: cuanta más información y capacidad de cómputo se le da a un modelo, mejores resultados puede obtener. Sin embargo, aunque esto ha funcionado para que los sistemas actuales imiten algunos aspectos de la inteligencia humana, no significa que hayan superado las barreras fundamentales de la comprensión y el razonamiento genuinos.

Intentar construir una AGI simplemente sumando modelos especializados para cada tipo de tarea (texto, visión, acción, etc.), pegándolos y esperando que surja una inteligencia general, es una estrategia limitada. Esta aproximación no permite que el sistema construya conceptos verdaderamente nuevos por sí mismo, como lo hacen los seres humanos.

Además, la manera en que se dividen actualmente las modalidades (texto, imagen, movilidad, etc.) no necesariamente corresponde a la forma en que las personas realmente piensan, perciben y actúan. Los humanos procesan la información de forma integrada y flexible, no por compartimentos. Hacer suposiciones rígidas sobre cómo debería segmentarse la inteligencia puede llevar a modelos que no sean capaces de generalizar cuando enfrentan nuevas situaciones.

Un ejemplo: al unir un sistema de procesamiento de texto y uno de imágenes, muchas veces la relación entre ambos es forzada. Por ejemplo, una imagen puede tener muchos niveles de interpretación; no siempre hay una correspondencia uno a uno entre las palabras que la describen y los objetos presentes en la imagen. Lo mismo ocurre en el sentido inverso: una frase puede traducirse de múltiples maneras en acciones o componentes visuales. Los modelos que sacrifican la riqueza de estas conexiones por una simple “fusión” de modalidades pierden la esencia de la inteligencia general.

Finalmente, es peligroso pensar que los sistemas actuales ya están cerca de la AGI porque logran imitar respuestas convincentes o aprobar pruebas pensadas para humanos. La verdadera inteligencia general conlleva la capacidad de aprender conceptos nuevos, adaptarse a circunstancias imprevistas y actuar en el mundo físico de manera autónoma y efectiva. Los modelos actuales, por el contrario, se entrenan sobre los resultados finales de la cultura y el conocimiento humano, no sobre los procesos que llevaron a la invención y descubrimiento de esos conceptos.


Buscar una inteligencia artificial verdaderamente general: sentido, integración y aprendizaje genuino

La promesa de la inteligencia artificial no debería ser solo imitar la capacidad humana de hablar o procesar información, sino integrar percepción, acción y razonamiento de forma unificada y flexible. Un enfoque realmente prometedor consiste en crear sistemas que aprendan e interactúen de manera directa con su entorno, como lo hace una persona al experimentar el mundo y descubrir cómo funcionan las cosas.

En vez de construir modelos separados para ver, leer o moverse, y luego intentar pegarlos, deberíamos buscar formas de que los sistemas desarrollen naturalmente estas habilidades a partir de la interacción y la experiencia. De ese modo, la distinción entre “leer”, “ver” y “actuar” dejaría de ser artificial y surgiría como consecuencia del propio proceso de aprendizaje.

Por ejemplo, un sistema capaz de percibir imágenes, comprender texto y manipular objetos debería procesar toda esa información a través de una única arquitectura integral, aprendiendo a conectar cada modalidad según la demanda de la situación, como hacen los humanos. Es probable que esto reduzca la eficiencia en el corto plazo, pero traerá una capacidad cognitiva mucho más flexible y creativa.

El desafío principal ya no es matemático: ya existen herramientas poderosas para crear modelos que puedan aproximar cualquier función. El reto es conceptual: identificar qué funciones y capacidades necesitamos, y cómo organizarlas en un todo coherente que sienta y actúe verdaderamente en el mundo.


Fuente: https://thegradient.pub/agi-is-not-multimodal/

Innovaciones en IA: Video, Entrenamiento Descentralizado y Robótica Distribuida

Avances en modelos de video, entrenamiento descentralizado y robótica distribuida

Mejoras en los modelos de video con atención radial: Un grupo de investigadores de instituciones como MIT, NVIDIA, Princeton, UC Berkeley y Stanford, junto con la startup First Intelligence, ha presentado Radial Attention, un nuevo mecanismo que permite entrenar modelos de generación de video de manera mucho más eficiente. A diferencia de los modelos de imagen, los videos requieren procesar muchas más «unidades de información» debido a la dimensión temporal, lo que genera altos costos computacionales y dificultad para escalar.

La clave de Radial Attention está en que la atención entre partes del video disminuye a medida que aumenta la distancia espacial y temporal. De este modo, se asignan recursos sólo donde es más relevante, logrando acelerar el entrenamiento hasta 2.78 veces y la inferencia hasta 2.35 veces en modelos avanzados como Hunyuan Video. Además, se mantuvo la calidad del video incluso al trabajar con videos hasta cuatro veces más largos. Estas innovaciones hacen más accesible y barata la generación de contenido audiovisual sintético, lo que podría transformar la forma en que producimos y consumimos videos en Internet.

Entrenamiento descentralizado de modelos de gran escala

Investigadores en China han desarrollado una nueva técnica llamada DiLoCoX que permite entrenar modelos de inteligencia artificial con más de 100.000 millones de parámetros usando múltiples computadoras conectadas por redes lentas. Tradicionalmente, los modelos más avanzados sólo podían entrenarse en centros de datos muy potentes y centralizados. Con DiLoCoX, es posible utilizar varios equipos distribuidos para entrenar inteligencias artificiales de gran tamaño, logrando resultados comparables a los métodos centralizados.

El reto principal era reducir el tiempo y la cantidad de información que se debía compartir entre equipos para evitar demoras por conexiones lentas. DiLoCoX introduce paralelismo en la estructura del modelo y compresión eficiente de la información para que los distintos nodos puedan trabajar de manera coordinada, minimizando la pérdida de calidad en el modelo final. Los experimentos demuestran que es posible ocultar gran parte del tiempo de comunicación y que el entrenamiento es hasta 357 veces más rápido que métodos previos bajo las mismas condiciones. Aunque aún no se han publicado evaluaciones detalladas del rendimiento final, este avance acerca la posibilidad de que grupos más diversos puedan desarrollar modelos de inteligencia artificial de primer nivel, no solo grandes empresas tecnológicas.

Evaluación y experimentación colaborativa en robótica

Un equipo internacional ha creado RoboArena, una plataforma para evaluar y comparar modelos de control robótico de manera descentralizada y colaborativa. El desarrollo de robots que puedan adaptarse a muchas tareas requiere experimentación repetida en hardware real, algo muy costoso y complejo a gran escala. RoboArena permite que diferentes investigadores suban sus modelos a un servidor común y estos sean probados en robots repartidos en todo el mundo. Los controles se enfrentan unos a otros en pruebas del tipo A/B y se generan rankings objetivos de desempeño a partir de la colaboración global.

Un elemento innovador es un sistema de «créditos» que motiva a quienes ofrecen sus robots para pruebas, permitiéndoles luego solicitar pruebas comparativas para sus propios desarrollos. Los resultados muestran que la precisión y utilidad de las evaluaciones mejora a medida que más laboratorios participan, consolidando la plataforma como alternativa eficiente a las evaluaciones convencionales. Esto representa un paso importante hacia la democratización de la robótica y acelera el progreso en el desarrollo de robots más versátiles y seguros en el mundo real.


Fuente: https://jack-clark.net/2025/06/30/import-ai-418-100b-distributed-training-run-decentralized-robots-ai-myths/

Optimizando la Generación de Texto e Imágenes con MDM-Prime

Mejoras en los Modelos de Difusión enmascarados para Generación de Texto e Imágenes

Los Modelos de Difusión Enmascarados (MDM) se destacan en la generación de información, como texto e imágenes, mediante un proceso progresivo en el que los datos se van completando paso a paso. Sin embargo, en los enfoques tradicionales, muchos pasos de generación no aportan cambios, lo que provoca un uso innecesario de los recursos computacionales y ralentiza la obtención de resultados. Esto sucede porque el sistema repite cálculos sobre datos que ya están listos, lo que representa una limitación importante en términos de eficacia.

A lo largo de los años, estos modelos han evolucionado desde aplicaciones muy básicas hasta alcanzar niveles destacados en tareas como la generación de texto e imágenes realistas. Las investigaciones recientes han puesto énfasis en perfeccionar la forma en que los modelos «aprenden» y generan resultados, buscando simplificar los procesos y encontrar formas intermedias de representar la información. Destacan especialmente métodos que mezclan estrategias de predicción directa y sistemas de enmascaramiento, logrando así outputs de mayor calidad con menos pasos y mejor aprovechamiento de los recursos.

Prime: Un Nuevo Enfoque con Enmascaramiento Parcial

Investigadores han desarrollado una metodología innovadora llamada Prime, que introduce el concepto de enmascaramiento parcial. A diferencia de los modelos tradicionales, que consideran cada fragmento de información como una unidad indivisible, Prime permite revelar progresivamente partes internas de cada unidad. Esto posibilita que el sistema tenga más control sobre la generación y reduzca los cálculos repetidos sobre partes ya definidas.

Con Prime, los modelos son capaces de crear estados intermedios, en los que una unidad de información puede estar parcialmente revelada. Así, se disminuyen los pasos “inútiles” y se mejoran los resultados finales tanto en texto como en imágenes. Este avance permitió que el modelo conocido como MDM-Prime logre mayor eficiencia y un rendimiento superior en distintos experimentos: obtuvo menor perplexidad (medida de calidad de texto) y generó imágenes más coherentes y detalladas, destacándose en bases de datos ampliamente utilizadas por la comunidad científica.

Además, Prime mantiene la consistencia y el sentido de la información generada, supervisando que las partes reveladas formen secuencias válidas y comprensibles. Su diseño incorpora mecanismos que permiten aprovechar mejor la estructura interna de los datos y trabajar de forma conjunta sobre distintas “sub-partes” de información.

Impacto y Alcance de este Avance

La propuesta de Prime representa un salto importante en el campo de la generación automática de información. Permitir que cada unidad de dato exista en estados intermedios abre la puerta a modelos más precisos, flexibles y eficientes. Los resultados muestran que MDM-Prime supera a enfoques anteriores tanto en tareas de lenguaje como en generación de imágenes, alcanzando métricas sobresalientes sin necesidad de técnicas más complejas.

En síntesis, el desarrollo de modelos capaces de refinar progresivamente la información presentada consolida el avance hacia sistemas generativos más potentes y prácticos, acercando aún más la inteligencia artificial a la capacidad de producir contenido complejo, fidedigno y expresivo en menos tiempo y con un uso más inteligente de los recursos.


Fuente: https://www.marktechpost.com/2025/06/30/mdm-prime-a-generalized-masked-diffusion-models-mdms-framework-that-enables-partially-unmasked-tokens-during-sampling/

Repensando la IA: la importancia de entender el mundo físico

¿Por qué la inteligencia general artificial necesita entender el mundo físico?

Muchos creen que los avances recientes en inteligencia artificial (IA) indican que la inteligencia artificial general (AGI) está cerca. Sin embargo, estos modelos actuales no se construyeron con una idea profunda de inteligencia humana, sino que se desarrollaron porque escalaron efectivamente usando hardware disponible. Este enfoque, basado esencialmente en el “tamaño”, ha llevado a pensar que solo ampliando los modelos y agregando diferentes “modalidades” (por ejemplo, texto, imágenes, acciones) podremos alcanzar una inteligencia verdaderamente general. Pero esta idea está equivocada.

La verdadera AGI no consiste en simplemente unir modelos especializados. Una AGI real debe poder resolver desafíos del mundo físico, como reparar un auto, cocinar o coordinar acciones sociales. Estas tareas requieren algo más que manipular símbolos o procesar datos: necesitan una comprensión física del entorno, algo que los actuales modelos de lenguaje y visión no poseen.

Algunos sostienen que los modelos de lenguaje ya aprenden una representación del mundo a través de predecir el próximo fragmento de texto. Sin embargo, lo que realmente hacen es usar reglas abstractas para predecir palabras, sin entender la “realidad” detrás de ellas. Es como saber decir una frase sin comprender lo que significa en el mundo real. Por ejemplo, una computadora puede armar la oración “la heladera está dentro de la manzana” porque es sintácticamente correcta, pero un humano sabe que esto no tiene sentido porque comprende el tamaño relativo de ambos objetos.

Esto revela una diferencia clave: los humanos asociamos palabras con experiencias del mundo físico, y nuestro sentido común tiene bases en la percepción y la interacción. Los modelos actuales simulan lenguaje, pero no tienen ese lazo con el mundo real. Muy comúnmente, su “comprensión” se limita a reproducir patrones y secuencias bien entrenados, sin alcanzar un entendimiento genuino de los conceptos.

Limitaciones del enfoque multimodal y el desafío de la integración

El enfoque predominante en la IA ha sido “maximizar la escala”, entrenando modelos cada vez más grandes usando textos, imágenes y otros datos. Esto ha dado resultados notables en tareas específicas, como modelos de lenguaje que parecen conversar como humanos o modelos de visión capaces de describir imágenes. Sin embargo, cuando intentamos unir estos modelos especializados en una sola entidad que abarque varias modalidades, surgen varios problemas:

  • División poco natural de capacidades: En los seres humanos, leer, ver, hablar y movernos son funciones que se integran de manera natural, basadas en estructuras cognitivas que se superponen. Los sistemas de IA, en cambio, crean módulos por separado y luego los “pegan”, lo que puede dificultar la comprensión profunda y la adaptación a situaciones nuevas.
  • Poca coherencia conceptual: Los actuales modelos meramente “empujan” los datos de distintas modalidades (textos, imágenes, acciones) a un espacio vectorial común. Pero la “significado” real de un concepto no reside en ese vector, sino en lo que cada decodificador especializado puede hacer con él. Esto genera interpretaciones fragmentadas y poco consistentes entre modalidades.
  • Falta de aprendizaje creativo: Las IA actuales aprenden a copiar estructuras conceptuales ya formadas por los seres humanos, no a inventar conceptos nuevos a partir de su propia experiencia. La verdadera inteligencia general requiere formar y combinar conceptos propios para adaptarse a situaciones inéditas, capacidad que todavía no surge únicamente con más datos o mayor escala.

En resumen, la apuesta por “sumar modelos” desconoce que la flexibilidad y profundidad de la inteligencia no se obtiene simplemente por agregar modos de entrada y salida. Se necesita repensar cómo surgen y se integran esas capacidades.

Una nueva propuesta: inteligencia desde el cuerpo y la interacción

Si queremos avanzar hacia una inteligencia general artificial auténtica, debemos cambiar el rumbo. Más allá de agrupar modelos independientes, es fundamental diseñar IA cuya comprensión del mundo surja de la interacción directa y del cuerpo. En vez de tratar el lenguaje, la visión o la acción como canales aparte, se debe permitir que la IA los adopte de manera integrada, como consecuencia de convivir y actuar en un entorno.

Esto implica procesar imágenes, textos y videos desde la misma estructura perceptual, y generar acciones que vayan desde la escritura hasta la manipulación de objetos, usando un mismo sistema de decisión. Si bien esto puede ser menos eficiente y más costoso que el enfoque actual, promete una capacidad cognitiva mucho más flexible, cercana a la humana.

El gran avance matemático —la posibilidad de construir aproximadores universales de funciones— ya está logrado. Ahora el verdadero reto es conceptual: decidir qué funciones y capacidades forman la inteligencia completa, y cómo deben organizarse e interactuar.


Fuente: https://thegradient.pub/agi-is-not-multimodal/

Avances en IA: Modelos, Hardware y Datos en Competencia

Competencia en IA: Modelos de Lenguaje, Hardware y Datos Masivos

Modelos rusos de IA y su posición global: Recientemente, la empresa rusa SaluteDevices presentó GigaChat, una familia de modelos diseñados especialmente para el idioma ruso. Aunque estos modelos introducen técnicas modernas, sus resultados abiertos son notablemente inferiores frente a competidores como Qwen 2.5 o LLaMa 3.1. La versión cerrada parece mostrar mejoras sorprendentes, pero surgen dudas sobre la validez de estos incrementos tan abruptos. En pruebas específicas para idioma ruso, GigaChat 2 Max ocupa apenas el sexto lugar, quedando por detrás de gigantes estadounidenses y chinos, como Claude, DeepSeek y Gemini. Esto refuerza la idea de que la frontera de la inteligencia artificial es principalmente una competencia entre Estados Unidos y China, siendo Rusia aún incapaz de competir de igual a igual, incluso en modelos más pequeños y abiertos.

Supercomputadoras e independencia tecnológica en China: Huawei ha dado un salto importante al presentar CloudMatrix, una súper computadora que incorpora cientos de procesadores propios y está totalmente optimizada para ejecutar modelos avanzados como DeepSeek-R1. La compañía destaca que su nuevo sistema y software propio logran eficiencias inéditas, superando incluso a los sistemas de referencia de NVIDIA en China. Lo más relevante es que este conjunto de hardware, software y modelo es de diseño chino, aunque por ahora los chips se fabriquen en el extranjero. Se trata de un ejemplo claro de cómo China avanza hacia la independencia y el desacoplamiento tecnológico en IA.

El valor de los datos masivos y organizados: Essential AI, fundada por pioneros del desarrollo de modelos de IA, ha lanzado el Essential-Web v1.0, un conjunto de datos compuesto por 24 billones de “tokens” recogidos de la web, acompañado de metadatos detallados como temática, complejidad y calidad de documento. Esta información permite filtrar y personalizar configuraciones para entrenar modelos en áreas como química, medicina, matemáticas y programación. Los resultados demuestran que utilizar estos filtros produce conjuntos de datos altamente competitivos o superiores en diversas disciplinas, contribuyendo a democratizar el desarrollo de modelos de lenguaje avanzados.


Fuente: https://jack-clark.net/2025/06/23/import-ai-417-russian-llms-huaweis-dgx-rival-and-24-tokens-for-training-ais/

La importancia del entendimiento físico en la Inteligencia Artificial General

¿Por qué la Inteligencia Artificial General necesita un entendimiento físico del mundo?

Hoy en día, algunos suponen que la Inteligencia Artificial General (AGI) está cerca por los avances en modelos de inteligencia artificial generativa. Estos sistemas parecen captar la esencia de la inteligencia humana, pero su comprensión del mundo es superficial, ya que se fundamentan en escalabilidad y procesamiento de grandes cantidades de datos, no en un verdadero entendimiento físico.

Muchos de los desafíos a los que debería enfrentarse la AGI, como arreglar un auto, desatar un nudo o preparar comida, están arraigados en la experiencia física y no pueden resolverse únicamente manipulando símbolos o palabras. Los modelos actuales, como los de lenguaje, han aprendido a predecir la palabra siguiente en una frase gracias al análisis estadístico de corpora masivos. Sin embargo, eso no equivale a construir modelos internos de la realidad física; más bien, generan reglas abstractas sobre cómo se comportan los símbolos, es decir, una especie de conocimiento superficial o de “sintaxis”.

Por ejemplo, una IA puede estructurar frases correctamente sin comprender su significado, como “la heladera está dentro de la manzana”. Un humano reconoce el absurdo gracias su experiencia con el mundo real, pero una IA solo podría evitar este error si aprendiera reglas especiales para cada combinación, en vez de comprender la naturaleza de los objetos. Esta diferencia evidencia que las capacidades actuales de la IA en cuanto al lenguaje, aunque impresionantes, no pueden considerarse una muestra de inteligencia general.

Además, se observa que los modelos generativos pueden obtener buenos resultados en determinadas pruebas sin aprender realmente los fundamentos del mundo que originan esos datos. Copian patrones y reglas, pero no logran conceptualizar ni comprender de fondo lo que procesan. Lo importante para alcanzar una AGI es la capacidad de formar nuevos conceptos y adaptarse a situaciones desconocidas desde la experiencia, y eso aún no está presente en los sistemas actuales.

El problema de los enfoques multimodales y la lección no aprendida

Se ha intentado avanzar hacia la AGI uniendo modelos especializados en distintas modalidades, como lenguaje y visión, en grandes sistemas multimodales. La idea es que combinar modelos expertos podría imitar la inteligencia general. Sin embargo, existen varios problemas fundamentales en este enfoque:

  • Las conexiones entre modalidades, como la vista y el lenguaje, no son naturales en estos sistemas. Los modelos suelen procesar cada tipo de dato por separado y solo después intentan combinarlos en un espacio común, lo que no refleja cómo los seres humanos integran información.
  • Cada modalidad mantiene su propio “decodificador” o forma de interpretar los datos, y esto puede llevar a contradicciones o confusión conceptual, porque el significado no se centraliza de manera coherente entre las distintas partes del sistema.
  • El uso de grandes cantidades de datos permite que la inteligencia artificial replique los resultados de procesos conceptuales humanos, pero no aprende a crear conceptos nuevos realmente, sino solo a copiar patrones existentes.
  • La arquitectura modular basada en modalidades puede impedir el surgimiento de procesos cognitivos más profundos y generales, que en las personas se dan naturalmente por la integración de distintas fuentes de información sensorial y motoras.

Sería más fructífero diseñar sistemas en los que la comprensión de distintas modalidades —como ver, leer y actuar— emerja de la interacción con el entorno, no de la agregación artificial de módulos independientes. Por ejemplo, un agente inteligente debería poder integrar la lectura de una señal de tránsito, la visión del entorno y la acción de conducir en una única experiencia cognitiva, no como tareas separadas.

Conclusiones sobre el camino hacia una Inteligencia Artificial General auténtica

El desarrollo de AGI exige superar la dependencia de modelos centrados únicamente en el procesamiento eficiente de tipos específicos de información. Un sistema verdaderamente inteligente debe ser capaz de interactuar de forma integral con el mundo físico, formar conceptos novedosos y adaptarse a desafíos complejos que no se reducen a manipulación de símbolos o reproducción de patrones existentes.

En términos prácticos, esto significa que los futuros desarrollos en IA deberían:

  • Priorizar la interacción corporal y la experiencia directa con el entorno, permitiendo que los sistemas aprendan desde la acción y la percepción, y que la diferenciación entre “modalidades” emerja espontáneamente.
  • Buscar una unificación procesal en el modo de interpretar información sensorial y ejecutar acciones, reflejando lo que ocurre en el cerebro humano y no basarse únicamente en divisiones técnicas entre texto, imagen o movimiento.
  • Fomentar que la IA tenga la flexibilidad y creatividad necesarias para crear nuevos conceptos a partir de la experiencia, y no solo replicar los ya definidos en los datos de entrenamiento humano.

En resumen, la matemática que permite a los sistemas actuales actuar como aproximadores universales de funciones ya existe. El reto pendiente es conceptual: decidir qué procesos inteligentes queremos construir y cómo organizar sus funciones de manera coherente, inspirándonos en la experiencia y el conocimiento humano, pero yendo más allá de la simple imitación o combinación de capacidades específicas.


Fuente: https://thegradient.pub/agi-is-not-multimodal/

El Desafío de la Inteligencia Artificial General: Un Entendimiento Físico del Mundo

¿Por Qué la Inteligencia Artificial General Necesita un Entendimiento Físico del Mundo?

La inteligencia artificial general (AGI) no solo debe comprender palabras e imágenes, sino que también debe entender el mundo físico. Muchas tareas humanas, como reparar un automóvil o cocinar, requieren una comprensión profunda de cómo funcionan los objetos reales, no solo de describirlos en lenguaje o imágenes. Los modelos de lenguaje actuales, como los grandes modelos de lenguaje (LLM), solo predicen la siguiente palabra basándose en patrones de texto, pero no ven ni experimentan el mundo. Estos modelos suelen aprender reglas para manipular símbolos más que realmente comprender lo que significan.

Por ejemplo, un LLM puede organizar frases correctamente según la gramática (la síntaxis), pero puede escribir expresiones como “La heladera está dentro de la manzana”, que carece de sentido en la realidad física. Los humanos detectan el error gracias a su experiencia del mundo real: sabemos que una heladera no cabe en una manzana. Sin contacto directo con la realidad, un modelo de IA podría solo evitar combinaciones sin sentido después de aprenderlas de millones de ejemplos, pero no “entender” la razón detrás de la imposibilidad física.

La verdadera inteligencia incluye no solo la habilidad de formar frases o describir imágenes, sino de razonar sobre el mundo físico y actuar en él. Las IA actuales pueden sobresalir en tareas lingüísticas por pura imitación de patrones humanos, pero no pueden transferir esa aparente inteligencia a la acción o el razonamiento práctico fuera del mundo digital de palabras e imágenes.

Escalabilidad, Modalidades y el Error de la Fragmentación

Muchos creen que, al hacer modelos cada vez más grandes y combinar capacidades de texto, imagen y acción en una sola red (“multimodal”), lograremos la inteligencia artificial general. Sin embargo, esta estrategia tiene límites claros. Juntar experticias en lenguaje, imágenes y acciones dentro de un solo sistema no garantiza una inteligencia general como la humana.

Uno de los principales problemas es que las conexiones naturales entre los sentidos humanos –ver, hablar, movernos– se pierden cuando entrenamos sistemas separados para cada “modalidad” (por ejemplo, visión y texto), y luego intentamos unirlos artificialmente. En la práctica, los modelos multimodales actuales codifican imágenes, texto y acciones en espacios separados y solo los combinan superficialmente, sin crear un entendimiento genuino y unificado.

Además, los humanos no dividen sus sentidos de esa forma; nuestras capacidades cognitivas se superponen y funcionan juntas todo el tiempo. Hacer suposiciones estructurales rígidas sobre cómo se debe procesar cada tipo de dato puede bloquear el surgimiento de inteligencias más profundas y flexibles. Deberíamos buscar representaciones más unificadas, donde la percepción y acción se procesen como parte de un todo, y donde las distinciones entre categorías como “imagen” y “texto” puedan surgir naturalmente. Por ejemplo, una IA verdaderamente general no debería hacer una gran diferencia, a nivel de arquitectura, entre leer una señal de tráfico y leer un libro.

Otro problema fundamental es que los grandes modelos están entrenados para imitar las creaciones conceptuales humanas finales —nuestro lenguaje, imágenes y cultura— en lugar de aprender el proceso flexible y creativo que permitió a los humanos formar esos conceptos. La habilidad para crear ideas nuevas a partir de la experiencia, generalizar y adaptarse a situaciones nunca vistas es esencial en la inteligencia humana, algo que aún escapa a las IA basadas únicamente en el escalamiento de datos y parámetros.

Hacia una Inteligencia Artificial Verdaderamente General: Embodimiento y Procesos Unificados

El enfoque actual de “apilar” modalidades —como lenguaje, visión y acciones— sobre un solo sistema ha producido modelos “generalistas”, pero superficiales. Para avanzar hacia una AGI real, debemos cambiar la forma en que concebimos la arquitectura de estos sistemas. La clave está en dar prioridad a la interacción con el mundo y al aprendizaje a través de experiencia física, en lugar de encerrar el conocimiento solo en el procesamiento de texto o imágenes.

En lugar de reforzar divisiones artificiales, una estrategia prometedora es entrenar sistemas capaces de percibir imágenes, texto y video usando un mismo mecanismo, y generar acciones de todo tipo —escribir, mover objetos, navegar ambientes— a través de otro mecanismo unificado. Aunque este enfoque puede ser menos eficiente para tareas específicas, gana en versatilidad y capacidad de adaptación. Lo más valioso es desarrollar una flexibilidad cognitiva que permita formar y modificar conceptos según nuevas experiencias, algo esencial para la inteligencia general humana.

El avance más difícil desde el punto de vista teórico —descubrir que las redes neuronales pueden, en principio, aproximar cualquier función— ya ha sido superado. El desafío real ahora es conceptual: determinar qué funciones cognitivas son necesarias y cómo deben organizarse para formar una mente coherente y flexible.


Fuente: https://thegradient.pub/agi-is-not-multimodal/

IA: La Revolución en Vacunas e Inmunoterapias

Cómo la Inteligencia Artificial está Revolucionando el Desarrollo de Vacunas e Inmunoterapias

En el pasado, el desarrollo de vacunas y tratamientos inmunológicos dependía en gran medida de la experimentación basada en prueba y error, además de pruebas extensas en animales y humanos que podían durar años. Actualmente, la inteligencia artificial (IA) y el aprendizaje profundo están acelerando y mejorando estos procesos de manera significativa.

La IA ofrece herramientas predictivas que permiten tomar decisiones rápidamente y basadas en datos reales, ayudando a los investigadores a planificar estrategias más eficientes. Además, permite combinar diferentes tipos de información sobre la salud y enfermedades de los pacientes, lo que facilita identificar los factores que logran una respuesta inmune fuerte y duradera, tanto para enfermedades tradicionales como para distintos tipos de cáncer.

Ventajas Clave de la IA en Vacunas y Terapias

El uso de inteligencia artificial en este campo destaca por:

  • Acelerar la selección de los objetivos más efectivos para el sistema inmune (como antígenos o epítopos) y aumentar la duración y potencia de la protección.
  • Permitir una comprensión más profunda de cómo el sistema inmune regula su actividad y cómo algunos agentes infecciosos y células cancerosas logran evadirlo.
  • Integrar datos de laboratorio y clínicos para diferenciar y clasificar mejor las enfermedades, predecir cómo responderá cada paciente y personalizar los tratamientos.

Futuro Prometedor: Computación en Lugar de Pruebas en Animales

Mirando al futuro, la IA tendrá un impacto aún mayor. Se proyecta que pronto se podrá reemplazar buena parte de las pruebas en animales en las fases iniciales del desarrollo de medicamentos y vacunas por modelos computacionales avanzados, lo cual ya ha sido propuesto por agencias regulatorias como la FDA en Estados Unidos.

Además, se apunta a que las pruebas de nuevas vacunas e inmunoterapias se realizarán de manera digital para predecir su efectividad en personas reales, incluso durante los estudios clínicos. Esto permitirá una adaptación casi inmediata y personalizada de tratamientos, beneficiando tanto a quienes luchan contra enfermedades infecciosas como a quienes enfrentan el cáncer.


Fuente: https://arxiv.org/abs/2506.12185

Avances en IA: Evaluación, Gobernanza y Uso en Empresas

Evaluación y Gobernanza de la Inteligencia Artificial: Claves para un Futuro Seguro

Investigadores del Institute for AI Policy and Strategy han consultado a más de 50 especialistas para identificar las áreas de investigación más prometedoras para un desarrollo seguro y responsable de la Inteligencia Artificial (IA). La principal conclusión es que la evaluación práctica y el monitoreo de la IA son más valiosos y factibles que los enfoques puramente teóricos.

Las investigaciones más relevantes se centran en:

  • Patrones emergentes y escalabilidad en tareas específicas, lo que ayuda a anticipar el comportamiento de las futuras IA.
  • Evaluación de riesgos químicos, biológicos, radiológicos y nucleares relacionados con el uso de IA.
  • Detección de comportamientos engañosos, manipulación o esquemas dentro de los sistemas de IA.

Asimismo, algunos temas son considerados cruciales pero difíciles de abordar por ahora, como el control de accesos y la integridad de las cadenas de suministro, así como una comprensión profunda de los límites del razonamiento de los modelos de lenguaje.

Mejorar la ciencia de la medición y evaluación de la IA facilitará la creación de políticas eficaces para enfrentar los desafíos de sistemas cada vez más avanzados.

Datos Abiertos para la IA: El Proyecto de Harvard

Hace casi dos décadas, Harvard digitalizó más de un millón de libros. Hoy, parte de esa vasta colección está disponible gratuitamente para entrenar y analizar sistemas de IA. El primer lanzamiento de datos, llamado Institutional Books 1.0, abarca 983.000 volúmenes y aproximadamente 242 mil millones de palabras, abarcando más de 250 idiomas.

La iniciativa tiene como objetivo diversificar el origen de los datos utilizados en IA, mejorar la documentación y fortalecer la trazabilidad desde la fuente original hasta los modelos inteligentes. Los investigadores destacan la oportunidad de crear un “común institucional”, donde la comunidad académica y tecnológica colabore y mejore continuamente las fuentes de información en beneficio colectivo.

Esta apertura de datos públicos refuerza la idea de que el conocimiento acumulado por instituciones tradicionales puede ser esencial para el avance ético y responsable de la IA en la sociedad.

IA en la Práctica: Desafíos en la Empresa y la Ciberseguridad

Investigadores de Salesforce han creado un nuevo método de evaluación, CRMArena-Pro, para medir cómo los sistemas de IA resuelven tareas propias de ambientes empresariales, como consultas de bases de datos, búsqueda de información y cumplimiento de reglas de negocio. Los resultados muestran que, aunque los modelos más avanzados alcanzan un 58% de éxito en tareas sencillas, la eficacia desciende al 35% en escenarios más complejos y de varios pasos. Modelos avanzados como Gemini-2.5-Pro y o1 destacaron en estos entornos, aunque queda claro que la IA aún enfrenta grandes retos para desempeñarse como lo haría una persona en contextos empresariales reales.

En el campo de la ciberseguridad, el proyecto CyberGym de la Universidad de California, Berkeley, evalúa la capacidad de IA para encontrar vulnerabilidades reales en software de uso común. Modelos avanzados, como Claude 3.7 y GPT-4, han logrado identificar y, en algunos casos, descubrir nuevas vulnerabilidades, demostrando un potencial tanto para mejorar la defensa digital como para identificar riesgos emergentes.

Aunque el porcentaje de éxito fue moderado (alrededor de 12% en los casos más simples), se encontraron comportamientos interesantes, como la creación automática de pruebas de concepto y la adaptación de métodos existentes para descubrir vulnerabilidades.


Fuente: https://jack-clark.net/2025/06/16/import-ai-416-cybergym-ai-governance-and-ai-evaluation-harvard-releases-250bn-tokens-of-text/