Formatação de arquivos PDF

O formato PDF, embora muito útil para sua capacidade de ser lido em quase qualquer dispositivo, tem algumas limitações severas.

O Doxillion tentará converter o conteúdo do texto, mas há casos em que o conteúdo não pode ser convertido com precisão devido a limitações que podem variar de documento para documento.

Alguns exemplos

Muitos escritores de PDF não mantêm espaços, guias, quebras de linha e colunas. Em vez disso, armazenam palavras, ou mesmo letras, individualmente, juntamente com a localização na página onde a palavra ou letra deve ir.

A maioria dos formatos de documento armazena uma tabela como um conjunto de células de tabela, cada uma contendo texto. PDF armazena tabelas em vez de texto em frente a uma imagem das linhas que fazem a mesa.

Alguns PDFs armazenam texto, não como texto real, mas como imagens de texto. (O Doxillion não é um produto de reconhecimento óptico de caracteres e, portanto, deve deixá-los como imagens.)