Google lanzó Gemma 4 hoy en cuatro tamaños: Effective 2B, Effective 4B, 26B Mixture of Experts, y 31B Dense, afirmando que su modelo 31B ocupa el puesto #3 en el leaderboard de texto de Arena AI mientras que el 26B asegura el #6. Los modelos funcionan bajo licencia Apache 2.0 y están construidos desde la misma investigación que Gemini 3, con Google enfatizando la eficiencia de "inteligencia-por-parámetro" que supuestamente les permite "superar modelos 20 veces su tamaño".
El timing es interesante. Google está empujando fuerte hacia modelos abiertos justo cuando la comunidad debate si el desarrollo verdaderamente abierto puede competir con sistemas cerrados. Su afirmación de 400 millones de descargas para versiones previas de Gemma sugiere adopción real, pero los rankings de Arena AI pueden ser manipulados y no siempre reflejan rendimiento del mundo real. El enfoque en eficiencia de parámetros importa más que los rankings—si un modelo 26B genuinamente rinde como un modelo 500B+, eso es un cambio radical de hardware para desarrolladores ejecutando inferencia a escala.
Google no proporcionó verificación independiente de sus afirmaciones de rendimiento, y no pude encontrar cobertura de otras fuentes para corroborar los rankings de Arena AI que citan. El énfasis en "agentic workflows" y "razonamiento avanzado" suena como marketing estándar de lanzamiento de modelo, pero el targeting específico de hardware—desde dispositivos Android hasta GPU de laptops—sugiere que van en serio sobre deployment en edge.
Para los builders, la prueba real no es la posición en el leaderboard sino si estos modelos realmente entregan capacidades de frontera en hardware de consumidor. Si las afirmaciones de eficiencia se sostienen, Gemma 4 podría democratizar el acceso al razonamiento avanzado de AI. Si no, es solo otro lanzamiento de modelo sobre-promocionado con benchmarks seleccionados a dedo.
