¿Por qué los modelos de lenguaje son lentos al responder?
Los modelos de lenguaje de gran tamaño actuales generan texto de forma secuencial, produciendo solo un token a la vez. Esto implica que, para cada palabra o fragmento nuevo, se deben cargar miles de millones de parámetros desde la memoria a las unidades de cómputo, creando un cuello de botella en la velocidad de respuesta. Más allá de la potencia del hardware, el límite suele estar en la velocidad de transferencia de datos, no en la capacidad de cálculo. Lo curioso es que el modelo dedica la misma cantidad de recursos tanto para una palabra fácil de predecir como para una inferencia compleja, sin aprovechar si la respuesta es sencilla o difícil. Esto provoca demoras innecesarias y subutilización del potencial computacional.
La innovación: Multi-Token Prediction y Decodificación Especulativa
Con la introducción de Multi-Token Prediction (MTP) en la familia Gemma 4, Google revoluciona el proceso de inferencia. En lugar de predecir palabra por palabra, utiliza una técnica llamada decodificación especulativa. Aquí, un modelo ligero llamado «drafter» propone varios tokens en cadena de forma acelerada. Luego, el modelo principal —mucho más grande y preciso— verifica todos esos tokens en paralelo. Si aprueba la secuencia, puede aceptarla completa y añadir un token más, todo en el tiempo que antes llevaba generar uno solo.
Este avance elimina las pérdidas de calidad: la respuesta final tiene la misma precisión y coherencia que la generada por el modelo principal en modo tradicional. Así, los usuarios obtienen respuestas hasta 3 veces más rápidas, sin sacrificar comprensión o veracidad.
Mejoras técnicas clave que aceleran el proceso
La arquitectura MTP de Gemma 4 introduce mejoras significativas para aprovechar al máximo los recursos disponibles. Los modelos drafter comparten la memoria intermedia (KV cache) del modelo principal, reduciendo cálculos redundantes y acelerando cada paso. En dispositivos de recursos limitados —como teléfonos o equipos embebidos— se incorpora además una técnica de agrupamiento en la capa de embedder, agilizando el cálculo final y facilitando respuestas ágiles incluso cuando la memoria y la capacidad son restringidas.
Dependiendo del tipo de hardware, como Apple Silicon o GPU de NVIDIA, también se han optimizado los tamaños de lote de procesamiento para alcanzar aceleraciones localizadas, adaptando el rendimiento al entorno de ejecución.
Además, Google pone a disposición estos avances con una licencia abierta Apache 2.0, permitiendo que desarrolladores y empresas de todo el mundo accedan y apliquen las mejoras de manera sencilla a través de plataformas como Hugging Face y Kaggle.