SenseTime, le pionnier de vision par ordinateur basé à Hong Kong qui est sur les listes de sanctions américaines depuis 2019, a sorti SenseNova U1 mardi sous licence ouverte sur Hugging Face pis GitHub. Le pitch du modèle combine une prétention technique pis une prétention chaîne d'approvisionnement. Technique : U1 génère pis interprète des images sans d'abord les traduire en tokens texte, ce que le co-fondateur pis scientifique en chef Dahua Lin (aussi prof d'ingénierie de l'information à CUHK) décrit comme « le processus de raisonnement entier du modèle n'est plus limité au texte — il peut raisonner avec les images aussi ». Chaîne d'approvisionnement : 10 designers de puces chinois incluant Cambricon pis Biren Technology ont annoncé une compatibilité le jour de la sortie. Le modèle est positionné comme une alternative stack chinois aux modèles frontière d'images pis multimodaux américains — à la fois architecturalement pis au niveau du silicium.
La prétention technique est la moitié la plus intéressante, même si les benchmarks vendeur ont pas été vérifiés indépendamment encore. La plupart des modèles vision-langage actuels (GPT-4o, Claude avec vision, Gemini) gèrent les images en les encodant dans une séquence de tokens discrets ou continus qui se font passer dans le même transformer qui traite le texte — traduisant en gros la vue dans un langage que le modèle comprend déjà. Les architectures de raisonnement-image natif sautent l'étape de traduction, en traitant les représentations visuelles directement à travers la trace de raisonnement du modèle. Si SenseTime a vraiment livré ça en qualité de production, ça avance une direction de recherche (pense Anole, classe Chameleon entièrement multimodal natif) dans un artéfact open-source utilisable. Lin l'encadre comme fondamental pour la robotique future : « les modèles capables de traiter des images directement vont permettre aux robots de mieux comprendre le monde physique. » C'est le même pari architectural derrière les travaux d'IA incarnée chez Figure, Physical Intelligence pis Gemini Robotics de DeepMind — mais avec une licence open-source chinoise.
L'histoire de chaîne d'approvisionnement, c'est ce qui rend ça chargé géopolitiquement. SenseTime a pris du retard dans la course post-ChatGPT, perdant le projecteur aux startups chinoises plus récentes DeepSeek pis MiniMax — qui ont toutes les deux livré des modèles de langage classe-frontière avec des sorties open-source notables. Avec U1, SenseTime fait quelque chose de distinctif : livrer un modèle que 10 vendeurs de silicium chinois (Cambricon, Biren, pis vraisemblablement Huawei Ascend, Moore Threads, Iluvatar, Enflame, pis d'autres) ont validé contre le jour un. Cette coordination, c'est le vrai produit. Les contrôles d'exportation américains restreignent l'accès chinois aux meilleures puces Nvidia pour l'entraînement, mais l'inférence devient de plus en plus la contrainte qui mord pour l'économie de l'IA en production — pis un modèle open-source qui tourne nativement sur des accélérateurs chinois, c'est une couverture contre tout le régime des sanctions au temps d'entraînement. Lin admet que SenseTime « pourrait encore avoir besoin d'utiliser les meilleures puces pour assurer la vitesse de notre itération » — c'est-à-dire que l'entraînement se passe tranquillement sur le matériel Nvidia qu'ils peuvent sécuriser — mais l'inférence peut être entièrement souveraine.
Pour les builders, trois takeaways. Premièrement, surveille la communauté de benchmark : les comptes ML sur Hugging Face pis Twitter vont probablement avoir des numéros d'éval indépendants dans les jours qui viennent, pis la prétention de U1 « beaucoup plus rapide que les meilleurs modèles américains » a besoin de vérification sur des benchmarks vision-langage standardisés (MMMU, MMBench, ScienceQA) avant d'être crue. Deuxièmement, le pattern de support multi-vendeur de puces est reproductible pis silencieusement important : si tu bâtis des modèles open-source, designer pour la portabilité à travers des accélérateurs hétérogènes (pas juste Nvidia), ça devient une fonctionnalité stratégique, pas un afterthought. Troisièmement, c'est un autre point de données dans la thèse plus large « open source comme vitesse d'itération » — la citation de Lin (« être open source ou fermé n'est pas le facteur gagnant ; la vitesse d'itération l'est ») fait écho au pari stratégique que DeepSeek pis Mistral ont fait. La stratégie IA chinoise sous sanctions a convergé vers la même réponse : livrer des poids ouverts, accepter la perte des moats propriétaires, gagner sur la vélocité d'itération pis la largeur d'écosystème. C'est une position plus durable que celle que les labos frontière américains occupent présentement.
