SenseTime, el pionero de visión por computadora con sede en Hong Kong que ha estado en listas de sanciones de EE. UU. desde 2019, liberó SenseNova U1 el martes bajo licencia abierta en Hugging Face y GitHub. La propuesta del modelo combina una afirmación técnica y una afirmación de cadena de suministro. Técnica: U1 genera e interpreta imágenes sin primero traducirlas a tokens de texto, lo que el cofundador y científico en jefe Dahua Lin (también profesor de ingeniería de la información en CUHK) describe como "el proceso de razonamiento completo del modelo ya no está limitado al texto —puede razonar también con imágenes". Cadena de suministro: 10 diseñadores chinos de chips incluyendo Cambricon y Biren Technology anunciaron compatibilidad el día del lanzamiento. El modelo está posicionado como una alternativa de stack chino a los modelos frontera de imagen y multimodales de EE. UU. —tanto arquitectónicamente como en la capa de silicio.

La afirmación técnica es la mitad más interesante, incluso si los benchmarks del vendedor no han sido verificados independientemente todavía. La mayoría de los modelos actuales de visión-lenguaje (GPT-4o, Claude con visión, Gemini) manejan imágenes codificándolas en una secuencia de tokens discretos o continuos que se alimentan al mismo transformer que procesa texto —efectivamente traduciendo la vista a un lenguaje que el modelo ya entiende. Las arquitecturas de razonamiento de imagen nativo saltan el paso de traducción, procesando representaciones visuales directamente a través de la traza de razonamiento del modelo. Si SenseTime ha enviado realmente esto en calidad de producción, adelanta una dirección de investigación (piensa Anole, clase Chameleon completamente multimodal nativo) a un artefacto open-source utilizable. Lin lo enmarca como fundamental para la robótica futura: "modelos capaces de procesar imágenes directamente permitirán a los robots entender mejor el mundo físico". Es la misma apuesta arquitectónica detrás del trabajo de IA encarnada en Figure, Physical Intelligence y Gemini Robotics de DeepMind —pero con una licencia open-source china.

La historia de cadena de suministro es lo que hace esto geopolíticamente cargado. SenseTime se quedó atrás en la carrera post-ChatGPT, perdiendo el reflector ante startups chinas más nuevas como DeepSeek y MiniMax —que ambas enviaron modelos de lenguaje clase-frontera con lanzamientos open-source notables. Con U1, SenseTime hace algo distintivo: enviar un modelo que 10 proveedores chinos de silicio (Cambricon, Biren, y presumiblemente Huawei Ascend, Moore Threads, Iluvatar, Enflame y otros) han validado contra desde día uno. Esa coordinación es el producto real. Los controles de exportación de EE. UU. restringen el acceso chino a los mejores chips Nvidia para entrenamiento, pero la inferencia se vuelve cada vez más la restricción que muerde para la economía de IA en producción —y un modelo open-source que corre nativamente en aceleradores chinos es una cobertura contra todo el régimen de sanciones en tiempo de entrenamiento. Lin admite que SenseTime "puede que aún necesite usar los mejores chips para asegurar la velocidad de nuestra iteración" —es decir, el entrenamiento sucede silenciosamente en el hardware Nvidia que pueden conseguir— pero la inferencia puede ser enteramente soberana.

Para constructores, tres lecturas. Primero, observa la comunidad de benchmarks: las cuentas ML en Hugging Face y Twitter probablemente tendrán números de eval independientes en cuestión de días, y la afirmación de U1 de "mucho más rápido que los mejores modelos de EE. UU." necesita verificación en benchmarks estandarizados de visión-lenguaje (MMMU, MMBench, ScienceQA) antes de ser creída. Segundo, el patrón de soporte multi-proveedor de chips es replicable y silenciosamente importante: si construyes modelos open-source, diseñar para portabilidad a través de aceleradores heterogéneos (no solo Nvidia) se está convirtiendo en una característica estratégica, no en una idea tardía. Tercero, este es otro punto de datos en la tesis más amplia de "open source como velocidad de iteración" —la cita de Lin ("ser open source o cerrado no es el factor ganador; la velocidad de iteración lo es") hace eco a la apuesta estratégica que han hecho DeepSeek y Mistral. La estrategia de IA china bajo sanciones ha convergido a la misma respuesta: lanzar pesos abiertos, aceptar la pérdida de fosos propietarios, ganar en velocidad de iteración y amplitud de ecosistema. Esa es una posición más duradera que la que ocupan actualmente los laboratorios frontera de EE. UU.