Una arquitectura híbrida para mayor eficiencia en IA
En el mundo de la inteligencia artificial generativa, la meta siempre ha sido construir modelos cada vez más grandes. Sin embargo, los límites de consumo energético y capacidad de memoria han orientado los avances hacia lograr una mayor eficiencia arquitectónica. El modelo LFM2-24B-A2B propone una solución disruptiva al combinar lo mejor de dos métodos: la atención y las convoluciones. La clave de su diseño radica en la proporción 1:3 entre bloques de atención y bloques base, es decir, de las 40 capas totales, 30 emplean convoluciones eficientes y solo 10 utilizan mecanismos de atención especializada. Este enfoque permite mantener la capacidad de razonamiento sofisticado de los sistemas tradicionales, a la vez que optimiza el rendimiento y reduce el consumo de memoria, haciéndolo viable para funcionar en hardware de consumo convencional.
Eficiencia con Sparse Mixture of Experts (MoE)
El aspecto más sobresaliente del LFM2-24B-A2B es su diseño Mixture of Experts. Aunque contiene 24 mil millones de parámetros, solo activa aproximadamente 2,3 mil millones por token. Esto significa que el modelo puede aprovechar la inteligencia de grandes sistemas, pero con la velocidad y eficiencia de uno mucho más pequeño. Esta arquitectura avanzada permite instalar el modelo en 32GB de RAM, abriendo la puerta a su uso en computadoras portátiles y dispositivos con GPU integradas, eliminando la necesidad de centros de datos sofisticados. Además, cuenta con una ventana de contexto de 32.768 tokens, lo que lo convierte en una opción robusta para análisis de texto de gran longitud y tareas de consulta local.
Desempeño sobresaliente y ventajas clave
Las pruebas muestran que LFM2-24B-A2B supera a modelos supuestamente más poderosos en tareas de lógica y razonamiento, y alcanza una velocidad de procesamiento de 26.800 tokens por segundo en una GPU H100, superando a competidores como Qwen3-30B-A3B y Snowflake gpt-oss-20b. Su diseño eficiente permite obtener resultados avanzados en tareas complejas, pero con un requisito técnico mucho menor que los modelos convencionales de gran escala.
- Híbrido inteligente: Combinación de atención agrupada y convoluciones para máxima eficiencia.
- Uso realista: Capaz de ejecutarse en dispositivos comunes gracias a su bajo requerimiento de memoria activa.
- Rendimiento líder: Supera a otros modelos en velocidad, longitud de contexto y capacidad de análisis.