Os usos abrangem todo o pipeline: lacunas no pré-treinamento, exemplos de ajuste fino, respostas de alinhamento, avaliação. Risco de colapso do modelo: erros se acumulam através de gerações. Questões legais sobre herança de PI.
Dados sintéticos são usados em todo o pipeline de ML: gerar exemplos de instrução-resposta para ajuste fino, criar dados de preferência para DPO, aumentar datasets de treinamento escassos, gerar casos de teste para avaliação, e preencher lacunas em línguas ou domínios sub-representados.
Treinar um modelo nos próprios outputs de outro modelo (ou de si mesmo) pode levar ao “colapso do modelo”: erros sutis e viéses se amplificam a cada geração, como uma fotocópia de uma fotocópia. Dados sintéticos de qualidade requerem filtragem rigorosa, validação cruzada e diversidade de fontes.