Una plataforma de datos e IA que provee analítica unificada, data engineering y capacidades de machine learning. Databricks adquirió Mosaic ML (2023) para añadir capacidades de entrenamiento de LLM y lanzó DBRX, su propio LLM open-weight. La plataforma está construida sobre Apache Spark y provee infraestructura gestionada para el ciclo de vida ML completo desde preparación de datos hasta model serving.
Por qué importa
Databricks es donde los datos empresariales se encuentran con la IA. Las ambiciones IA de la mayoría de compañías empiezan con «necesitamos dar sentido a nuestros datos», y Databricks suele ser la plataforma que maneja data engineering, feature engineering, entrenamiento de modelo y serving en un solo lugar. Su adquisición de Mosaic ML (conocido por entrenamiento eficiente de LLM) señaló que la plataforma de datos y la plataforma IA están convergiendo.
Deep Dive
Databricks' ML stack includes: MLflow (the most popular open-source ML experiment tracking tool, created by Databricks), Unity Catalog (data governance and model registry), Mosaic ML's training infrastructure (used to train DBRX), and model serving endpoints. The platform handles the full workflow from raw data in a lakehouse to a deployed model, which is its key differentiator from point solutions.
DBRX
DBRX is Databricks' open-weight LLM, using a Mixture of Experts architecture (132B total, 36B active). It was competitive with Llama 2 70B and Mixtral 8x7B at release. More than the model itself, DBRX demonstrated Databricks' ability to train frontier-scale models in-house, validating their Mosaic ML acquisition and positioning them as a credible AI lab alongside their platform business.