Une plateforme de données et d'IA qui fournit des capacités unifiées d'analytique, d'ingénierie de données et de machine learning. Databricks a acquis Mosaic ML (2023) pour ajouter des capacités d'entraînement de LLM et a lancé DBRX, leur propre LLM à poids ouverts. La plateforme est construite sur Apache Spark et fournit une infrastructure managée pour le cycle de vie ML complet, de la préparation des données au serving de modèles.
Pourquoi c'est important
Databricks est l'endroit où les données d'entreprise rencontrent l'IA. La plupart des ambitions IA des entreprises commencent par « on a besoin de donner du sens à nos données », et Databricks est souvent la plateforme qui gère l'ingénierie de données, l'ingénierie de features, l'entraînement de modèles et le serving au même endroit. Leur acquisition de Mosaic ML (connu pour l'entraînement efficace de LLM) a signalé que la plateforme de données et la plateforme IA convergent.
En profondeur
Le stack ML de Databricks inclut : MLflow (l'outil open source de suivi d'expériences ML le plus populaire, créé par Databricks), Unity Catalog (gouvernance de données et registre de modèles), l'infrastructure d'entraînement de Mosaic ML (utilisée pour entraîner DBRX), et des endpoints de serving de modèles. La plateforme gère le workflow complet, des données brutes dans un lakehouse à un modèle déployé, ce qui est son différenciateur clé par rapport aux solutions ponctuelles.
DBRX
DBRX est le LLM à poids ouverts de Databricks, utilisant une architecture Mixture of Experts (132B total, 36B actifs). Il était compétitif avec Llama 2 70B et Mixtral 8x7B à sa sortie. Plus que le modèle lui-même, DBRX a démontré la capacité de Databricks à entraîner des modèles à l'échelle frontière en interne, validant leur acquisition de Mosaic ML et les positionnant comme un laboratoire IA crédible en plus de leur activité de plateforme.