Together 的推理堆疊針對開源模型進行了優化,透過在自己的 GPU 叢集上高效運行模型來提供具競爭力的定價。他們支援廣泛的模型(通常在新版本發布幾天內就新增),提供 OpenAI 相容的 API,使從專有模型切換到開源模型變得容易。他們的微調服務讓你無需管理訓練基礎設施就能在自己的資料上客製化開源模型。
Together 將自己定位為開源模型生態系統的基礎設施。他們與模型建立者(Meta、Mistral 等)合作,貢獻研究(FlashAttention 由 Together 研究者共同開發),並提供讓不想管理 GPU 的開發者能使用開源模型的服務層。這個「模型雲」層隨著開源模型在許多任務上接近專有模型品質而日益重要。