Pular para o conteúdo principal
Voltar ao blog
7 min de leitura

Como fazer OCR em PDF escaneado de graça — Sem precisar enviar o arquivo

Você escaneia um contrato, salva como PDF e tenta copiar um parágrafo — só para descobrir que o documento inteiro é uma imagem chapada. O texto está ali, visualmente, mas você não consegue selecionar, pesquisar nem copiar. É aí que entra o OCR (Reconhecimento Óptico de Caracteres).

Este guia explica como fazer OCR de um PDF escaneado ou imagem de graça, o que faz uma digitalização funcionar bem ou mal, e quais são as ciladas de privacidade nas ferramentas online mais populares.

O que o OCR realmente faz

OCR é uma técnica que olha para uma imagem com texto e descobre quais são as letras e palavras de fato. O resultado é texto real que você pode:

  • Copiar e colar em qualquer lugar
  • Pesquisar dentro do Word, Google Docs ou no seu sistema de arquivos
  • Alimentar no ChatGPT, Claude ou qualquer outra ferramenta de IA
  • Traduzir com o DeepL ou o Google Tradutor
  • Indexar para busca de texto completo em todo o seu acervo

Até o OCR rodar sobre um PDF escaneado, o documento é basicamente uma foto. Depois do OCR, ele vira um documento de texto de verdade.

Dois tipos de saída do OCR

Existem dois tipos de saída úteis que você vai encontrar:

  1. Texto puro (.txt) — apenas as palavras reconhecidas, sem formatação. Ótimo para alimentar outras ferramentas.
  2. PDF pesquisável — a imagem original da página é preservada exatamente, mas uma camada invisível de texto é adicionada por trás dela. O PDF parece idêntico à digitalização, mas agora você consegue selecionar, copiar e pesquisar o texto. É isso que você quer se precisar manter o documento com a mesma aparência e ainda assim torná-lo pesquisável.

Uma boa ferramenta de OCR oferece as duas opções.

A cilada de privacidade no OCR online

A maioria das ferramentas "gratuitas" de OCR online funciona enviando seu arquivo para o servidor delas, rodando o OCR lá e devolvendo o resultado para você. Tudo bem para um meme, mas é problema para:

  • Declarações de imposto de renda e holerites
  • Prontuários médicos
  • Contratos com cláusulas confidenciais
  • Documentos de identidade (passaporte, CNH)
  • Extratos bancários
  • Qualquer coisa coberta por NDA

Você não tem como verificar o que essas ferramentas fazem com o arquivo depois do processamento. Muitas guardam indefinidamente, treinam modelos com ele ou vendem versões anonimizadas. Leia com atenção a política de privacidade de qualquer ferramenta gratuita antes de enviar digitalizações sensíveis.

A alternativa baseada em navegador

Os navegadores modernos conseguem rodar OCR localmente — sem precisar fazer upload. O truque é o Tesseract.js, um motor de OCR de código aberto compilado para WebAssembly. Na primeira vez que você usa para um determinado idioma, o navegador baixa um pequeno modelo de idioma (~10 MB). Depois disso, o OCR roda inteiramente na sua máquina, sem precisar de conexão de rede.

É essa a abordagem que usamos na ferramenta OCR de PDF e Imagem. Solte um PDF escaneado ou imagem, escolha o idioma e o texto reconhecido aparece no navegador. Nada sai do seu computador.

Se a sua entrada for mais frequentemente uma foto de celular, captura de tela ou imagem única em vez de um PDF de várias páginas, o Conversor de Imagem em Texto é o mesmo motor com uma interface voltada para esse caso de uso — mesmo modelo de privacidade, mesma precisão, só uma UI ajustada para fotos e capturas de tela.

Passo a passo: OCR de um PDF escaneado no seu navegador

### 1. Abra a ferramenta de OCR

Acesse yourpdftools.com/ocr. É uma única página. Sem cadastro, sem e-mail, sem cartão.

### 2. Envie seu arquivo

Você pode soltar:

  • Um PDF escaneado (uma página ou várias)
  • Uma imagem — PNG, JPG, WebP ou BMP
  • Arquivos de até 50 MB

Se o arquivo for grande ou tiver muitas páginas, a ferramenta processa uma página por vez para que a interface continue responsiva.

### 3. Escolha o idioma

Esse passo importa mais do que você imagina. O Tesseract é um motor multi-idioma, mas só consegue reconhecer um idioma de cada vez com qualidade. Se você selecionar inglês em um documento em alemão, vai sair texto embaralhado. A ferramenta vem com 14 idiomas comuns: inglês, espanhol, francês, alemão, português, italiano, holandês, russo, árabe, hindi, japonês, coreano e chinês (simplificado e tradicional).

Para documentos com vários idiomas, rode o OCR uma vez por idioma e combine os resultados.

### 4. Rode o OCR

Clique em Rodar OCR. Na primeira vez que você usa um idioma, o navegador baixa um modelo de idioma de ~10 MB. Esse arquivo fica em cache, então as próximas execuções no mesmo idioma são instantâneas. Depois disso, cada página é renderizada em um canvas e reconhecida.

Você vai ver o progresso em tempo real por página: renderizando → reconhecendo.

### 5. Use o resultado

Quando o OCR termina, você tem três coisas que pode fazer:

  • Copiar o texto para a área de transferência com um clique
  • Baixar .txt para salvar o texto puro
  • Baixar PDF pesquisável — essa é a opção mágica: um PDF novinho que parece idêntico à sua digitalização, mas com uma camada de texto invisível por trás. Abra em qualquer leitor de PDF (Pré-Visualização, Adobe, Chrome) e você consegue selecionar, pesquisar e copiar o texto.

A pontuação de confiança do OCR é exibida para você saber o quanto pode confiar no reconhecimento. Acima de 90% costuma estar limpo. Abaixo de 70% significa que a digitalização original tem qualidade baixa demais para um OCR confiável — tente escanear novamente em DPI mais alto.

O que torna o OCR preciso (ou não)

A qualidade do OCR é determinada quase inteiramente pela digitalização original. A ferramenta só consegue trabalhar com o que você dá a ela. Use estas regras:

  • 300 DPI é o ponto ideal. A maioria dos scanners vem por padrão em 200 DPI, o que é ok para arquivar, mas no limite para OCR. Configure o scanner em 300 DPI para os melhores resultados.
  • Texto preto sobre fundo branco funciona melhor. Fundos coloridos, texto com pouco contraste e marcações estranhas reduzem a precisão.
  • Páginas retas e sem inclinação. Uma página inclinada em apenas 5 graus pode confundir o detector de linhas. A maioria dos scanners corrige automaticamente; se o seu não corrige, passe a página por um filtro de deskew antes.
  • Fontes padrão. Times New Roman, Arial e Helvetica são reconhecidas quase com perfeição. Fontes decorativas ou que imitam manuscrito vão dar trabalho.
  • Evite layouts de duas colunas quando possível. O motor de OCR lê de cima para baixo; colunas podem se misturar a menos que o layout seja muito limpo.
  • Resolução maior vence compressão menor. Um JPEG em alta resolução com compressão leve é melhor do que um PNG em baixa resolução.

E texto manuscrito?

O Tesseract é treinado principalmente em texto impresso. Ele lê manuscrito, mas a precisão cai para 50–70% mesmo em uma escrita limpa. Para letra de forma bem feita dá para usar; para cursiva, espere precisar redigitar boa parte. OCR especializado em manuscrito (como o Google Cloud Vision) é significativamente melhor, mas exige enviar o arquivo a um servidor.

Casos de uso comuns

Alguns cenários reais em que isso é útil:

  • Recibos e notas fiscais. Tire uma foto, faça OCR, cole os números na sua planilha.
  • Acervos antigos de PDF. Uma pasta de documentos escaneados de anos atrás vira totalmente pesquisável no seu sistema de arquivos depois de convertida em PDFs pesquisáveis.
  • Livros e artigos. Um artigo de revista escaneado que você quer destacar ou citar.
  • Anotações de reunião. Foto de um quadro branco ou caderno, convertida em texto editável.
  • Extração de dados de identidade e formulários. Escaneie um formulário, faça OCR e jogue o texto numa planilha para entrada de dados — sem digitar.

Combinando OCR com outras ferramentas

Quando você já tem o texto pesquisável, pode encadeá-lo com o resto do conjunto de ferramentas:

  • Use Extrair Páginas para retirar só as páginas que você precisa antes do OCR — economiza tempo em PDFs grandes
  • Use PDF para Texto no PDF pesquisável resultante para obter o texto puro separadamente
  • Use Comprimir PDF para reduzir o PDF pesquisável e enviar por e-mail
  • Use Proteger PDF para colocar senha em digitalizações sensíveis antes de compartilhar

Resumo de privacidade

A abordagem de OCR no navegador tem uma grande vantagem que vale repetir: seu arquivo nunca sai do seu computador. Não tem upload, nem processamento em servidor, nem cópia armazenada em lugar nenhum. Você pode fazer OCR de uma declaração de imposto de renda escaneada, um prontuário médico ou um contrato de trabalho sem confiar em ninguém além do seu próprio navegador. Para qualquer coisa sensível, essa é a única escolha aceitável.

Pronto para experimentar? Abra a ferramenta de OCR e solte um PDF escaneado ou foto. O primeiro modelo de idioma leva alguns segundos para carregar; depois disso, é instantâneo.

Trabalhando com uma única foto ou captura de tela em vez disso? Use o Conversor de Imagem em Texto — mesmo motor, linguagem mais direta, garantia de privacidade idêntica.