El Dr. Károly Zsolnai-Fehér de Two Minute Papers publicó una explicación sobre el lanzamiento de Gemma 4 de Google DeepMind, y vale la pena verla si estás haciendo una decisión de elección de modelo para 2026. El trabajo del canal es tomar anuncios de investigación, leer a través de la experiencia práctica de la comunidad durante un par de semanas, y devolver un veredicto en vez de postear hype el día del lanzamiento. El veredicto acá es favorable con reservas. Gemma 4 tocó 10 millones de descargas en la primera semana, la variante más pequeña corre en teléfonos offline (y, famosamente en este video, en una Nintendo Switch de primera generación), y la licencia Apache 2.0 finalmente remueve las esposas comerciales que imponía la licencia Gemma vieja. Escribí sobre el cambio de licencia y el posicionamiento en la frontera multimodal-agéntica ayer; este video rellena la arquitectura técnica para la que no tuve espacio.

Cuatro detalles arquitectónicos vale la pena sacar. Primero, los datos de entrenamiento están curados en vez de scrapeados, lo que Károly encuadra como "no dejes todo entrar, curá tu dieta de información", y es buen consejo para modelos y personas. Segundo, atención híbrida: una ventana deslizante local más una pasada de atención global, el mismo modelo haciendo zoom en detalles a nivel de oración mientras sigue rastreando contexto a nivel de libro. Tercero, comprensión nativa de imágenes que mantiene las proporciones de aspecto landscape en vez de aplastarlas a un cuadrado (que es lo que hacía Gemma 3 y que silenciosamente rompía los benchmarks de imagen). Cuarto, un KV-cache compartido entre capas, así que las capas posteriores piden prestada memoria ya computada por las anteriores en vez de recomputar desde cero. Individualmente estas son incrementales. Juntas explican cómo el modelo denso de 31B vence a algunos competidores MoE 10x más grandes en benchmarks donde los modelos densos supuestamente habían perdido hace años.

El encuadre "regalo a la humanidad" es sincero y vale la pena tomarlo al pie de la letra. Károly cierra con un contraste específico: Gemma 4 aterrizando al mismo tiempo que un modelo de frontera "acaba de ser cerrado para unos pocos clientes selectos". Esa es una referencia directa al patrón de acceso cerrado que cubrí ayer (Anthropic Mythos, OpenAI GPT-Rosalind, yendo solo a socios de ciberseguridad y pharma). La lógica emocional del video es que Gemma 4 de pesos abiertos es un contrapeso a ese encierro, algo que "ellos" no pueden quitarte. La realidad práctica es más matizada. Los pesos abiertos que corren en un teléfono no compiten con capacidad de frontera detrás de una puerta Trusted Access. Compiten con el acceso a la API de propósito general (GPT-5.4, Claude Opus 4.7) para las cargas donde un modelo 13B o 31B es suficientemente bueno. Para la mayoría de los constructores, la mayoría del tiempo, es suficientemente bueno.

Si estás pesando si agregar Gemma 4 a tu stack, mirá este video y después testeá las variantes 26B MoE y 31B dense contra tu carga de trabajo real. Las reservas honestas de Károly son la parte útil. El modelo no tiene una base de datos viva, así que va a estar confidentemente equivocado sin un harness de agente; sufre con tareas complejas abiertas; todavía tiene ojos débiles con detalles visuales finos como briznas de pasto o cercas lejanas. Eso coincide con la realidad de los benchmarks. Para cargas no-código, no-razonamiento-de-frontera (resumen, traducción, uso de herramientas agéntico rutinario, inferencia on-device), Gemma 4 es ahora la baseline abierta por defecto contra la que vale medir todo lo demás. La licencia Apache 2.0 lo hace amigable al procurement en una forma que Gemma 3 nunca fue. Y si necesitabas una explicación interna persuasiva para darle a un stakeholder escéptico, Two Minute Papers hace ese trabajo en ocho minutos.