La pile d'inférence de Together est optimisée pour les modèles ouverts, offrant des prix compétitifs en faisant tourner les modèles efficacement sur leurs propres clusters GPU. Ils supportent une large gamme de modèles (ajoutant souvent les nouvelles publications en quelques jours) avec des API compatibles OpenAI, facilitant le passage de modèles propriétaires à des modèles ouverts. Leur service d'ajustement fin te permet de personnaliser des modèles ouverts sur tes données sans gérer d'infrastructure d'entraînement.
Together se positionne comme infrastructure pour l'écosystème des modèles ouverts. Ils s'associent avec les créateurs de modèles (Meta, Mistral, etc.), contribuent à la recherche (FlashAttention a été co-développé par des chercheurs de Together), et fournissent la couche de service qui rend les modèles ouverts accessibles aux développeurs qui ne veulent pas gérer des GPU. Cette couche « cloud de modèles » est de plus en plus importante à mesure que les modèles ouverts approchent la qualité des modèles propriétaires pour beaucoup de tâches.