O GitHub lançou o Rubber Duck, uma funcionalidade experimental no Copilot CLI que usa revisão entre modelos para detectar erros de codificação que modelos únicos de IA consistentemente perdem. Quando desenvolvedores usam Claude como seu agente de codificação principal, o Rubber Duck automaticamente executa uma revisão secundária usando GPT-5.4, e vice-versa. O sistema é acionado em três pontos-chave: após o planejamento, após implementações complexas, e após escrever testes mas antes da execução.
Isso aborda um problema fundamental com agentes de codificação de IA: eles amplificam erros iniciais porque etapas posteriores se baseiam nas mesmas suposições falhas. A auto-reflexão ajuda, mas um modelo revisando seu próprio trabalho ainda está limitado pelos mesmos vieses de treinamento que criaram o erro. Diferentes famílias de modelos—Claude da Anthropic versus GPT da OpenAI—carregam diferentes vieses de treinamento, tornando a revisão entre modelos mais eficaz para identificar pontos cegos.
Resultados de benchmark no SWE-Bench Pro mostram que Claude Sonnet com Rubber Duck fechou 74,7% da lacuna de desempenho para o mais capaz Claude Opus, com ganhos mais pronunciados em tarefas multi-arquivo requerendo 70+ passos. Os exemplos do GitHub revelam os tipos de erros detectados: agendadores que saem imediatamente, loops infinitos em tarefas de background, e sobrescritas silenciosas de dados que eliminam categorias de busca. Um caso particularmente revelador envolveu o sistema de email do NodeBB, onde três arquivos estavam lendo de uma chave Redis que o novo código havia parado de escrever—um bug que quebra o deploy sem mensagem de erro.
Para desenvolvedores, isso representa um passo prático em direção à assistência de codificação de IA mais confiável. O foco específico em identificar suposições, casos extremos, e conflitos de requisitos sugere que o GitHub entende que revisão eficaz de IA não é sobre reescrever código—é sobre identificar os modos de falha específicos que desenvolvedores humanos precisam saber antes de fazer o deploy.
