Formattazione dei file PDF

Il formato PDF, anche se molto utile per la sua capacità di essere letto su quasi tutti i dispositivi, ha alcune severe limitazioni.

Doxillion tenterà di convertire il contenuto di testo, ma ci sono casi in cui il contenuto non può essere convertito con precisione a causa di limitazioni che possono variare da documento a documento.

Alcuni esempi

Molti scrittori PDF non mantengono spazi, tabulazioni, interruzioni di riga e colonne. Invece memorizzano le parole, o anche le lettere, individualmente, insieme alla posizione sulla pagina in cui la parola o la lettera dovrebbe andare.

La maggior parte dei formati documento memorizza una tabella come un set di celle di tabella, ognuna contenente testo. PDF memorizza invece le tabelle come testo davanti a un'immagine delle linee che compongono la tabella.

Alcuni PDF memorizzano il testo, non come testo effettivo, ma come immagini di testo. (Doxillion non è un prodotto di riconoscimento ottico dei caratteri, e quindi deve lasciare questi come immagini.)