menu
Logo TecMundo
Software

Como converter imagens digitalizadas em texto com programas OCR

Aprenda a transformar o conteúdo de uma imagem digital em um texto editável.

schedule25/02/2011, às 07:34

Normalmente, quando um documento é digitalizado (como por um scanner), ele é armazenado no computador em formato de imagem. Muitas vezes, quando você digitaliza um texto, certamente o faz para poder utilizá-lo posteriormente, inclusive fazendo anotações, copiando trechos ou efetuando quaisquer outras alterações necessárias.

O grande problema nisso é que uma imagem não é editável. O mesmo ocorre com arquivos no formato PDF, que também não permitem a cópia de texto. Para auxiliar os usuários na resolução destes problemas, existe uma tecnologia adotada por alguns programas chamada de OCR.

smart_display

Nossos vídeos em destaque

OCR, do inglês Optical Character Recognition (Reconhecimento Ótico de Caracteres), é um método aplicado de maneira a permitir que o conteúdo escrito em um documento no formato de imagem seja reconhecido e transformado em um arquivo de texto editável.

Grande parte dos programas que fazem isso funcionam como serviços online e seu funcionamento envolve apenas três processos simples: localizar o arquivo em seu computador, efetuar o upload da imagem e escolher o idioma do texto presente no documento. O restante costuma ficar por conta do aplicativo.

Conforme o aplicativo utilizado, os resultados podem tanto ser disponibilizados na própria página do serviço quanto haver a possibilidade de se efetuar o download para o computador. Abaixo, o Baixaki listou alguns programas OCR, cujo modo de funcionamento envolve o processo simples citado.

NewOCR

O NewOCR é um serviço online que aplica a técnica de conversão de imagens em texto. Ele suporta os formatos JPEG, PNG, GIF, BMP, TIFF e PDF. O processo é simples, envolvendo a localização do documento em seu computador, seguida do upload do arquivo para o site do aplicativo. Para obter melhores resultados, não se esqueça de definir o idioma do conteúdo.

carregando arquivo

O serviço permite converter arquivos com até 5MB de tamanho para imagens e 20 MB para PDFs. Adicionalmente, ele suporta o idioma português. A conversão é feita em poucos instantes e os resultados são bons, com poucos erros de reconhecimento. Os principais problemas de encontrados estão relacionados aos acentos e caracteres especiais.

Online OCR

Logo do serviçoO Online OCR também funciona inteiramente a partir do navegador e conta com dois modos de operação. Você pode se registrar no serviço e obter créditos para converter arquivos (no ato do registro de uma nova conta, você ganha cinco créditos) ou utilizá-lo como convidado (“Guest mode”), sem criar um usuário.

Na segunda modalidade, você pode efetuar a conversão de 15 arquivos por hora. Um dos diferenciais do serviço é a quantidade de formatos disponíveis para o novo arquivo (PDF, XLS, HTML, DOC, RTF e TXT) em detrimento da grande maioria, que só permite a conversão para documento de texto (TXT).

O processo requer que você aperte alguns botões a mais, pois há um para encontrar a imagem no computador, um segundo para o upload e outro para o reconhecimento do texto. O programa permite que você carregue arquivos com até 4 MB de tamanho e oferece suporte para o idioma português.

Página de reconhecimento

Os resultados da conversão são satisfatórios e, este parece ser o serviço que faz o melhor reconhecimento, pois apresentou um número menor de erros. Por vezes, ele oculta termos com hífen, substituindo-os apenas pelo sinal de -.

Free Online OCR

O Free Online OCR também é uma opção gratuita para a conversão de seus arquivos, embora talvez ele seja o serviço com o maior número de limitações. O tamanho do arquivo não pode ser maior do que 2 MB e a largura e a altura máximas são de 5000 pixels. Adicionalmente, você pode fazer o upload de dez imagens por hora.

Imagem da página inicial do serviço

Os formatos suportados são PDF, JPG, GIF e TIFF, porém em arquivos PDF, ele só interpreta o conteúdo da primeira página. O processo de conversão é rápido e há a possibilidade de escolha do idioma português. O principal problema de reconhecimento observado é a troca de RM por MW (em todas as palavras) pelo programa.

OCR Convert

O OCR Convert talvez seja a alternativa mais “simples” de todas as apresentadas. Ele suporta, como formatos de entrada, apenas PDF, JPG e JPEG. Não há uma especificação precisa quanto ao tamanho máximo do arquivo a ser carregado ou quantas imagens podem ser convertidas por dia (ou hora).

OCR Convert

A conversão também ocorre em um período curto de tempo. O serviço conta com o idioma português em sua lista de reconhecimento e faz a conversão de imagens com texto em nossa língua. A precisão pode ser afetada conforme o tamanho do texto e o maior problema identificado foi a troca de 0 (zero) pela letra O.

Agora você já conhece alguns programas que podem ajudá-lo a transformar uma imagem em texto. Esperamos que isso facilite na próxima vez em que escanear um documento que precisa de alteração, ou quiser editar um arquivo PDF. O tamanho máximo dos arquivos para a conversão é de 5 MB.