El término “open weights” existe porque el uso que la industria de IA hace de “código abierto” es genuinamente engañoso. El código abierto tradicional (como lo define la OSI) significa que obtienes el código fuente, puedes modificarlo y puedes redistribuirlo. Cuando Meta libera Llama, obtienes los pesos entrenados del modelo — los miles de millones de parámetros numéricos que definen el comportamiento del modelo — pero no los datos de entrenamiento, no el código completo de entrenamiento, y a menudo no el pipeline de preprocesamiento de datos. Puedes ejecutar inferencia y hacer fine-tuning, pero no puedes reproducir el modelo desde cero. La Open Source Initiative publicó una definición formal de “Open Source AI” a finales de 2024 intentando clarificar esto, pero la industria aún usa los términos de manera vaga. Conocer la distinción importa cuando estás evaluando lo que realmente puedes hacer con un modelo.
El espectro de apertura varía ampliamente entre las liberaciones. En un extremo, los modelos Llama de Meta vienen con una licencia personalizada que prohíbe el uso por empresas con más de 700 millones de usuarios activos mensuales (claramente dirigida a competidores) y requiere atribución. Los modelos de Mistral han usado generalmente Apache 2.0, una de las licencias más permisivas disponibles. La familia Qwen de Alibaba también usa Apache 2.0. DeepSeek ha liberado pesos bajo licencia MIT. Mientras tanto, proyectos como BLOOM (BigScience) y OLMo (AI2) fueron más allá al también liberar datos de entrenamiento y código completo de entrenamiento — estos se acercan más a ser verdaderamente de código abierto. Para los desarrolladores, la licencia determina si puedes usar el modelo comercialmente, si necesitas compartir modificaciones y si puedes construir productos propietarios sobre él.
Ejecutar modelos open-weights por tu cuenta se ha vuelto dramáticamente más accesible gracias a la cuantización y los motores de inferencia optimizados. Un modelo de 70 mil millones de parámetros que necesitaría más de 140 GB de VRAM en precisión completa puede correr en un solo GPU de consumidor de 24 GB con cuantización de 4 bits con una pérdida de calidad aceptable. Herramientas como llama.cpp, vLLM y Ollama han hecho la inferencia local casi trivialmente fácil — puedes tener un modelo capaz corriendo en una laptop para gaming en minutos. El cuello de botella práctico se ha desplazado de “¿puedo ejecutarlo?” a “¿es la calidad suficiente para mi caso de uso?”. Los modelos más pequeños cuantizados son notablemente buenos para muchas tareas, pero pierden rendimiento en razonamiento complejo y trabajo con contexto largo comparados con modelos frontera a precisión completa servidos vía API.
Las implicaciones de seguridad de los open weights son uno de los temas más activamente debatidos en política de IA. La preocupación es directa: una vez que los pesos se liberan, cualquiera puede eliminar el entrenamiento de seguridad con fine-tuning. Los investigadores han demostrado que las barreras de seguridad basadas en RLHF pueden eliminarse de modelos open-weights con solo unos cientos de ejemplos y cómputo mínimo. Esto significa que los modelos open-weights pueden convertirse en versiones sin censura que cumplirán cualquier solicitud. El contraargumento — y es fuerte — es que el conocimiento que estos modelos contienen ya está disponible en internet, que los beneficios de la investigación abierta y la innovación distribuida superan los riesgos, y que intentar restringir la distribución de modelos solo concentra poder en unas pocas empresas grandes sin mejorar significativamente la seguridad. Ambos lados tienen puntos válidos, y el debate está lejos de resolverse.
Para los practicantes eligiendo entre modelos open-weights y basados en API, la decisión se reduce a cuatro factores: privacidad (los open weights mantienen tus datos locales), costo (el autoalojamiento es más barato a alto volumen pero más caro a bajo volumen), control (puedes hacer fine-tuning y personalizar libremente) y capacidad (los modelos frontera solo disponibles por API como GPT-4o y Claude aún superan a los mejores modelos open-weights en muchos benchmarks, aunque la brecha se estrecha con cada lanzamiento importante). Muchos sistemas de producción usan ambos — enrutando consultas simples a un modelo open-weights local para velocidad y costo, mientras envían tareas complejas a una API frontera. Este enfoque híbrido te da lo mejor de ambos mundos, y es cada vez más la elección pragmática para equipos que necesitan tanto rendimiento como privacidad.