Uma plataforma de dados e IA que provê analytics unificada, data engineering e capacidades de machine learning. Databricks adquiriu Mosaic ML (2023) para adicionar capacidades de treinamento de LLM e lançou DBRX, seu próprio LLM open-weight. A plataforma é construída sobre Apache Spark e provê infraestrutura gerenciada para o ciclo de vida ML completo, da preparação de dados ao model serving.
Por que importa
Databricks é onde dados empresariais encontram a IA. As ambições IA da maioria das empresas começam com “precisamos dar sentido aos nossos dados”, e Databricks muitas vezes é a plataforma que lida com data engineering, feature engineering, treinamento de modelo e serving em um só lugar. Sua aquisição da Mosaic ML (conhecida por treinamento eficiente de LLM) sinalizou que a plataforma de dados e a plataforma IA estão convergindo.
Deep Dive
Databricks' ML stack includes: MLflow (the most popular open-source ML experiment tracking tool, created by Databricks), Unity Catalog (data governance and model registry), Mosaic ML's training infrastructure (used to train DBRX), and model serving endpoints. The platform handles the full workflow from raw data in a lakehouse to a deployed model, which is its key differentiator from point solutions.
DBRX
DBRX is Databricks' open-weight LLM, using a Mixture of Experts architecture (132B total, 36B active). It was competitive with Llama 2 70B and Mixtral 8x7B at release. More than the model itself, DBRX demonstrated Databricks' ability to train frontier-scale models in-house, validating their Mosaic ML acquisition and positioning them as a credible AI lab alongside their platform business.