Vision Banana da DeepMind reformula segmentação como geração de imagem, bate SAM 3 da Meta por 4,7 pontos mIoU

A Google DeepMind lançou o Vision Banana na sexta-feira, um modelo de visão generalista construído por instruction-tuning do Nano Banana Pro (o gerador de imagens por trás do Gemini 3 Pro Image) sobre uma mistura de seus dados de treinamento originais mais uma quantidade modesta de dados de tarefas de visão. A alegação técnica é incomum. Em vez de treinar cabeças separadas para segmentação, estimativa de profundidade e previsão de normais de superfície, o Vision Banana parametriza o espaço de saída de cada tarefa como uma imagem RGB e deixa o gerador base produzi-las diretamente. Na segmentação semântica do Cityscapes ele reporta mean Intersection-over-Union de 0,699, uma melhoria absoluta de 4,7 pontos sobre o SAM 3 da Meta em 0,652. He Kaiming e Xie Saining, dois dos autores mais citados em pesquisa de visão moderna, estão listados no paper. A tese central declarada no título do paper é direta: geradores de imagem são aprendizes de visão generalistas.

O argumento arquitetural importa mais que o benchmark do título. A visão computacional clássica passou duas décadas construindo decodificadores específicos de tarefa: cabeças de previsão densa para segmentação, cabeças de regressão para profundidade, cabeças de classificação para detecção de objetos. Cada uma mapeia a representação de features de um backbone para um formato de saída específico da tarefa. O Vision Banana abandona esse andaime ao representar cada saída de tarefa como uma imagem e reutilizar o pathway de geração de imagens do modelo base. Máscaras de segmentação são imagens RGB. Mapas de profundidade são imagens RGB. Normais de superfície são imagens RGB. A capacidade do modelo de produzir imagens coerentes é reutilizada como a capacidade de produzir previsões densas em nível de pixel em qualquer tarefa que admita uma representação pictórica. Esse truque não é novo (Painter da Microsoft e SegGPT exploraram território similar em 2023), mas Vision Banana é a primeira instância onde o gerador subjacente está em escala de fronteira e o generalista resultante bate especialistas de domínio.

A implicação de pesquisa de ML é que o pré-treinamento generativo captura estruturas úteis para tarefas discriminativas em um nível mais profundo do que o campo geralmente assumia. SAM 3 é um especialista fortemente engenheirado com segmentação ancorada em conceitos e previsão de máscaras agnóstica de classes; perder 4,7 pontos mIoU para um generalista é o tipo de resultado que sugere que a arquitetura especialista não estava capturando algo que o gerador já sabia. Esse argumento tem sido feito para linguagem desde o GPT-3, onde pré-treinamento generativo superava modelos NLP específicos de tarefa benchmark após benchmark. Vision Banana é a versão mais limpa desse argumento para visão computacional. Se o resultado se mantém sob avaliação independente em mais datasets e modalidades, a consequência prática é que a próxima geração de sistemas de visão vai parecer menos com pipelines especializados e mais com geradores de imagem promptáveis com instruções de tarefa.

Para builders, o impacto imediato é limitado porque o Vision Banana é pesquisa, não um produto enviado, e os pesos do modelo subjacentes ao Nano Banana Pro não estão publicamente publicados. A implicação de longo prazo é mais interessante. Se a geração de imagens é genuinamente uma interface unificada para compreensão e produção, a estrutura de custo de construir sistemas de visão muda. Hoje, um pipeline CV de produção frequentemente combina um backbone, várias cabeças específicas de tarefa, dados de treinamento e rótulos separados para cada tarefa, e cola de integração. O enquadramento do Vision Banana colapsa isso em um único gerador seguidor de instruções com saídas condicionais à tarefa. Construir, por exemplo, uma stack de percepção de direção autônoma em cima de um desses modelos substituiria quatro ou cinco pipelines de treinamento por um, e permitiria ao sistema lidar com tarefas novas (prever profundidade da água, identificar manchas de reflexo, etc.) apenas dando prompts em vez de retreinar. Isso é conceitualmente limpo. Se corresponde à qualidade de engenharia de pipelines especialistas sob restrições críticas de segurança é a próxima coisa que a comunidade de pesquisa terá que testar.

Vision Banana da DeepMind reformula segmentação como geração de imagem, bate SAM 3 da Meta por 4,7 pontos mIoU

Mais notícias