Innovaciones en IA: Video, Entrenamiento Descentralizado y Robótica Distribuida

Avances en modelos de video, entrenamiento descentralizado y robótica distribuida

Mejoras en los modelos de video con atención radial: Un grupo de investigadores de instituciones como MIT, NVIDIA, Princeton, UC Berkeley y Stanford, junto con la startup First Intelligence, ha presentado Radial Attention, un nuevo mecanismo que permite entrenar modelos de generación de video de manera mucho más eficiente. A diferencia de los modelos de imagen, los videos requieren procesar muchas más «unidades de información» debido a la dimensión temporal, lo que genera altos costos computacionales y dificultad para escalar.

La clave de Radial Attention está en que la atención entre partes del video disminuye a medida que aumenta la distancia espacial y temporal. De este modo, se asignan recursos sólo donde es más relevante, logrando acelerar el entrenamiento hasta 2.78 veces y la inferencia hasta 2.35 veces en modelos avanzados como Hunyuan Video. Además, se mantuvo la calidad del video incluso al trabajar con videos hasta cuatro veces más largos. Estas innovaciones hacen más accesible y barata la generación de contenido audiovisual sintético, lo que podría transformar la forma en que producimos y consumimos videos en Internet.

Entrenamiento descentralizado de modelos de gran escala

Investigadores en China han desarrollado una nueva técnica llamada DiLoCoX que permite entrenar modelos de inteligencia artificial con más de 100.000 millones de parámetros usando múltiples computadoras conectadas por redes lentas. Tradicionalmente, los modelos más avanzados sólo podían entrenarse en centros de datos muy potentes y centralizados. Con DiLoCoX, es posible utilizar varios equipos distribuidos para entrenar inteligencias artificiales de gran tamaño, logrando resultados comparables a los métodos centralizados.

El reto principal era reducir el tiempo y la cantidad de información que se debía compartir entre equipos para evitar demoras por conexiones lentas. DiLoCoX introduce paralelismo en la estructura del modelo y compresión eficiente de la información para que los distintos nodos puedan trabajar de manera coordinada, minimizando la pérdida de calidad en el modelo final. Los experimentos demuestran que es posible ocultar gran parte del tiempo de comunicación y que el entrenamiento es hasta 357 veces más rápido que métodos previos bajo las mismas condiciones. Aunque aún no se han publicado evaluaciones detalladas del rendimiento final, este avance acerca la posibilidad de que grupos más diversos puedan desarrollar modelos de inteligencia artificial de primer nivel, no solo grandes empresas tecnológicas.

Evaluación y experimentación colaborativa en robótica

Un equipo internacional ha creado RoboArena, una plataforma para evaluar y comparar modelos de control robótico de manera descentralizada y colaborativa. El desarrollo de robots que puedan adaptarse a muchas tareas requiere experimentación repetida en hardware real, algo muy costoso y complejo a gran escala. RoboArena permite que diferentes investigadores suban sus modelos a un servidor común y estos sean probados en robots repartidos en todo el mundo. Los controles se enfrentan unos a otros en pruebas del tipo A/B y se generan rankings objetivos de desempeño a partir de la colaboración global.

Un elemento innovador es un sistema de «créditos» que motiva a quienes ofrecen sus robots para pruebas, permitiéndoles luego solicitar pruebas comparativas para sus propios desarrollos. Los resultados muestran que la precisión y utilidad de las evaluaciones mejora a medida que más laboratorios participan, consolidando la plataforma como alternativa eficiente a las evaluaciones convencionales. Esto representa un paso importante hacia la democratización de la robótica y acelera el progreso en el desarrollo de robots más versátiles y seguros en el mundo real.

Fuente: https://jack-clark.net/2025/06/30/import-ai-418-100b-distributed-training-run-decentralized-robots-ai-myths/