最大的 AI 資料標註公司,提供大多數主要 AI 模型所依賴的人工標註訓練資料。Scale AI 為自動駕駛、政府和 AI 公司標註影像、文本、影片和 3D 資料。他們還提供評估服務、RLHF 資料收集和微調用的資料整理。主要客戶包括 OpenAI、Meta、美國國防部和眾多自動駕駛汽車公司。
為什麼重要
Scale AI 在 AI 供應鏈中佔據關鍵位置:介於原始資料和已訓練模型之間。標註資料的品質直接決定模型品質,而 Scale 是最大的供應商。他們的 RLHF 資料收集服務意味著他們實際上在幫助塑造 AI 模型的對齊方式——訓練 Claude、GPT 和其他模型的人類偏好往往透過 Scale 等標註平台產生。
深度解析
Scale 的核心業務是大規模資料標註:為自動駕駛標註數百萬張影像(邊界框、分割遮罩、車道標記)、為 NLP 標註文本(命名實體、情感、意圖分類)以及為 LLM 對齊收集 RLHF 偏好資料。他們管理一支全球標註團隊,配有專門的品質控制流程——AI 的標註需要群眾外包平台獨自無法提供的一致性。
RLHF 流程
Scale 的 RLHF 服務說明了 AI 對齊背後的人力基礎設施。技能純熟的標註者比較模型輸出、評估回應的有用性和無害性,並提供驅動 DPO/RLHF 訓練的偏好資料。這些標註的品質直接影響模型行為——不一致或有偏見的標註會產生對齊不一致的模型。Scale 大量投資於標註者培訓、指引和標註者間一致性指標。