Формат файла PDF

Формат PDF, в то время как очень полезно для его способности читать практически на любом устройстве, имеет некоторые серьезные ограничения.

Doxillion попытается преобразовать текстовое содержимое, но бывают случаи, когда содержимое не может быть преобразовано точно из-за ограничений, которые могут варьироваться от документа к документу.

Несколько примеров

Многие писатели PDF на самом деле не держать пробелы, вкладки, разрывы строк, и столбцы. Вместо этого они хранят слова, или даже буквы, индивидуально, вместе с расположением на странице, где слово или письмо должно идти.

Большинство форматов документов хранят таблицу в виде набора ячеек таблицы, каждая из которых содержит текст. PDF хранит таблицы вместо этого в виде текста перед изображением строк, составляющих таблицу.

Некоторые PDF хранят текст не как фактический текст, а как изображения текста. (Doxillion не является оптическим продуктом распознавания символов, и поэтому должен оставить их в виде изображений.)