Une plateforme de données et d'IA qui fournit analytics unifiées, data engineering et capacités de machine learning. Databricks a acquis Mosaic ML (2023) pour ajouter des capacités d'entraînement de LLM et a releasé DBRX, leur propre LLM open-weight. La plateforme est construite sur Apache Spark et fournit une infrastructure managée pour le cycle de vie ML complet, de la préparation des données au model serving.
Pourquoi c'est important
Databricks, c'est là où les données d'entreprise rencontrent l'IA. Les ambitions IA de la plupart des compagnies commencent par « on a besoin de donner du sens à nos données », et Databricks est souvent la plateforme qui gère le data engineering, le feature engineering, l'entraînement de modèle et le serving au même endroit. Leur acquisition de Mosaic ML (connu pour l'entraînement efficace de LLM) signalait que la plateforme de données et la plateforme IA convergent.
Deep Dive
Databricks' ML stack includes: MLflow (the most popular open-source ML experiment tracking tool, created by Databricks), Unity Catalog (data governance and model registry), Mosaic ML's training infrastructure (used to train DBRX), and model serving endpoints. The platform handles the full workflow from raw data in a lakehouse to a deployed model, which is its key differentiator from point solutions.
DBRX
DBRX is Databricks' open-weight LLM, using a Mixture of Experts architecture (132B total, 36B active). It was competitive with Llama 2 70B and Mixtral 8x7B at release. More than the model itself, DBRX demonstrated Databricks' ability to train frontier-scale models in-house, validating their Mosaic ML acquisition and positioning them as a credible AI lab alongside their platform business.