O stack de inferência da Together é otimizado para modelos open-source, oferecendo preços competitivos ao rodar modelos eficientemente em seus próprios clusters de GPU. Eles suportam uma ampla variedade de modelos (frequentemente adicionando novos lançamentos em dias) com APIs compatíveis com OpenAI, facilitando a troca de modelos proprietários para open-source. Seu serviço de fine-tuning permite customizar modelos open-source nos seus dados sem gerenciar infraestrutura de treinamento.
Together se posiciona como infraestrutura para o ecossistema de modelos abertos. Eles fazem parcerias com criadores de modelos (Meta, Mistral, etc.), contribuem para pesquisa (FlashAttention foi co-desenvolvido por pesquisadores da Together) e fornecem a camada de serving que torna modelos abertos acessíveis a desenvolvedores que não querem gerenciar GPUs. Essa camada de "nuvem de modelos" está se tornando cada vez mais importante conforme modelos abertos se aproximam da qualidade dos proprietários para muitas tarefas.