Together的推理栈为开源模型进行了优化,通过在自有GPU集群上高效运行模型来提供有竞争力的定价。他们支持广泛的模型(通常在新版本发布后数天内添加),配备与OpenAI兼容的API,使从专有模型切换到开源模型变得容易。他们的微调服务让你可以在自己的数据上自定义开源模型,而无需管理训练基础设施。
Together将自己定位为开源模型生态系统的基础设施。他们与模型创建者(Meta、Mistral等)合作,为研究做出贡献(FlashAttention由Together的研究人员共同开发),并提供使不想管理GPU的开发者能够使用开源模型的服务层。随着开源模型在许多任务上接近专有模型的质量,这种“模型云”层变得越来越重要。