PDFファイルの書式設定

PDFフォーマットはほぼ全てのデバイスで読むことができるため非常に便利なフォーマットですが、いくつかの厳しい制約があります。

Doxillionは文字部分の変換を試みますが、文書によってはこうした制約により正しく変換ができない場合があります。

制約の例は以下の通りです:

PDF作成プログラムの多くはスペースやタブ、改行、カラムなどの情報を保存せず、単語や文字をページ内の所定の位置に個別に配置します。

殆どの文書形式では表を「セルの集合体」として保存し、各セル内に文字列が表示されますが、PDFでは表の枠線は画像として保存され、その画像の上に文字が乗せられます。

PDFによっては文字を文字として保存とせず、文字の画像として保存します。(Doxillionは光学式文字認識ソフトではありませんので、画像として保存された文字は画像として認識されます)。