Skip to content

Gemma 4: Respuestas Hasta 3 Veces Más Rápidas

¿Por qué los modelos de lenguaje son lentos al responder?

Los modelos de lenguaje de gran tamaño actuales generan texto de forma secuencial, produciendo solo un token a la vez. Esto implica que, para cada palabra o fragmento nuevo, se deben cargar miles de millones de parámetros desde la memoria a las unidades de cómputo, creando un cuello de botella en la velocidad de respuesta. Más allá de la potencia del hardware, el límite suele estar en la velocidad de transferencia de datos, no en la capacidad de cálculo. Lo curioso es que el modelo dedica la misma cantidad de recursos tanto para una palabra fácil de predecir como para una inferencia compleja, sin aprovechar si la respuesta es sencilla o difícil. Esto provoca demoras innecesarias y subutilización del potencial computacional.

La innovación: Multi-Token Prediction y Decodificación Especulativa

Con la introducción de Multi-Token Prediction (MTP) en la familia Gemma 4, Google revoluciona el proceso de inferencia. En lugar de predecir palabra por palabra, utiliza una técnica llamada decodificación especulativa. Aquí, un modelo ligero llamado «drafter» propone varios tokens en cadena de forma acelerada. Luego, el modelo principal —mucho más grande y preciso— verifica todos esos tokens en paralelo. Si aprueba la secuencia, puede aceptarla completa y añadir un token más, todo en el tiempo que antes llevaba generar uno solo.

Este avance elimina las pérdidas de calidad: la respuesta final tiene la misma precisión y coherencia que la generada por el modelo principal en modo tradicional. Así, los usuarios obtienen respuestas hasta 3 veces más rápidas, sin sacrificar comprensión o veracidad.

Mejoras técnicas clave que aceleran el proceso

La arquitectura MTP de Gemma 4 introduce mejoras significativas para aprovechar al máximo los recursos disponibles. Los modelos drafter comparten la memoria intermedia (KV cache) del modelo principal, reduciendo cálculos redundantes y acelerando cada paso. En dispositivos de recursos limitados —como teléfonos o equipos embebidos— se incorpora además una técnica de agrupamiento en la capa de embedder, agilizando el cálculo final y facilitando respuestas ágiles incluso cuando la memoria y la capacidad son restringidas.

Dependiendo del tipo de hardware, como Apple Silicon o GPU de NVIDIA, también se han optimizado los tamaños de lote de procesamiento para alcanzar aceleraciones localizadas, adaptando el rendimiento al entorno de ejecución.

Además, Google pone a disposición estos avances con una licencia abierta Apache 2.0, permitiendo que desarrolladores y empresas de todo el mundo accedan y apliquen las mejoras de manera sencilla a través de plataformas como Hugging Face y Kaggle.


Fuente: https://www.marktechpost.com/2026/05/06/google-ai-releases-multi-token-prediction-mtp-drafters-for-gemma-4-delivering-up-to-3x-faster-inference-without-quality-loss/

Related Post

Escándalo de privacidad en los seguros de salud

Problemas de privacidad en los sistemas de salud En los últimos tiempos, se descubrió que los mercados de seguros de salud en Virginia y Washington D.C., que sirven como portales

China, seguridad y el nuevo futuro de la IA

Innovaciones Chinas en IA: HiFloat4 y Kimi K2.5 Huawei ha presentado un nuevo formato para entrenar inteligencia artificial, llamado HiFloat4, que utiliza una precisión de 4 bits para mejorar la

NeuralSet: Uniendo neurociencia e inteligencia artificial

Una nueva era para el análisis de datos cerebrales NeuralSet surge como una solución innovadora frente a un gran desafío en la investigación neurocientífica moderna: la dificultad para vincular grandes

Powering over 1.5 million websites worldwide

Our set he for firmament morning sixth subdue darkness creeping gathered divide our let god moving.

Or

+10 378 267 3782

Contanos tu necesidad

Completá el formulario y nos pondremos en contacto a la brevededad para ayudarte a dar el siguiente paso.