O novo OCR da Mistral nao apenas le documentos, ele devolve a estrutura, as citacoes e o quao confiante esta, Zubnet AI Notícias

A Mistral lancou o OCR 4, um modelo de inteligencia documental com uma reviravolta simples: em vez de apenas extrair texto de um arquivo, ele devolve a estrutura. O OCR 4 retorna caixas delimitadoras, classificacao de blocos tipados que rotula titulos, tabelas, equacoes e assinaturas, e pontuacoes de confianca inline para o que ele leu. O texto e apenas parte da saida, e indiscutivelmente a parte menos interessante.

A estrutura e a confianca sao o ponto central, porque sao o que os sistemas de recuperacao vinham deixando de lado. O OCR simples lhe da uma parede de caracteres, mas perde de onde cada pedaco veio e quao confiavel ele e. Com caixas delimitadoras, tipos de bloco e confianca por trecho, um sistema posterior pode construir citacoes ancoradas na fonte que apontam para a regiao exata de uma pagina, ocultar blocos sensiveis e encaminhar trechos de baixa confianca para um humano revisar. Essa e a camada entre escanear um PDF e confiar no que sai dele.

Em cobertura e implantacao, o OCR 4 suporta 170 idiomas em 10 grupos linguisticos, com ganhos mensuraveis em idiomas especializados e de poucos recursos, onde muitos sistemas concorrentes degradam. Ele aceita os formatos que as empresas realmente usam, incluindo PDF, DOC, PPT e OpenDocument. Igualmente importante, o modelo e compacto o suficiente para rodar em um unico container, o que significa que pode ser auto-hospedado, uma consideracao real para organizacoes cujos documentos nao podem deixar suas proprias paredes.

A Mistral respalda o lancamento com numeros. Ela afirma que anotadores independentes preferiram o OCR 4 a todos os sistemas testados, com uma media de 72% de taxa de vitoria, e que o modelo lidera o ranking publico OlmOCRBench com uma pontuacao de 85.20. A cautela de sempre se aplica: o enquadramento da taxa de vitoria e da propria Mistral, e os benchmarks de OCR medem fatias estreitas de um problema confuso. O teste de verdade sao documentos desajeitados do mundo real, escrita a mao, digitalizacoes ruins e tabelas densas, onde as pontuacoes tendem a cair.

A mudanca que vale notar e no que o OCR esta se tornando. Ele nao e mais uma etapa de despejo de texto no inicio de um pipeline, mas a camada de ingestao para a recuperacao, emitindo a estrutura e a incerteza que a IA ancorada realmente precisa. A medida que mais dos dados uteis dentro das empresas residem em PDFs e apresentacoes de slides, um modelo documental que retorna citacoes e confianca, e roda dentro do seu proprio container, e uma peca discretamente estrutural da pilha de RAG. Menos chamativo do que mais um chatbot, e mais provavel de ser a coisa que torna o chatbot confiavel.

O novo OCR da Mistral nao apenas le documentos, ele devolve a estrutura, as citacoes e o quao confiante esta

Mais notícias