El stack de inferencia de Together está optimizado para modelos abiertos, ofreciendo precios competitivos al ejecutar modelos eficientemente en sus propios clústers de GPUs. Soportan una amplia gama de modelos (frecuentemente añadiendo nuevos lanzamientos en días) con APIs compatibles con OpenAI, facilitando el cambio de modelos propietarios a abiertos. Su servicio de fine-tuning te permite personalizar modelos abiertos con tus datos sin gestionar infraestructura de entrenamiento.
Together se posiciona como infraestructura para el ecosistema de modelos abiertos. Se asocian con creadores de modelos (Meta, Mistral, etc.), contribuyen a la investigación (FlashAttention fue co-desarrollado por investigadores de Together), y proporcionan la capa de servicio que hace que los modelos abiertos sean accesibles para desarrolladores que no quieren gestionar GPUs. Esta capa de "nube de modelos" es cada vez más importante a medida que los modelos abiertos se acercan a la calidad propietaria para muchas tareas.