PDF 文件格式

PDF 格式虽然对几乎可以在任何设备上读取的功能非常有用,但存在一些严重的限制。

Doxillion 将尝试转换文本内容,但在某些情况下,由于文档而异的限制,内容无法准确转换。

几个例子

许多 PDF 编写器实际上不保留空格、选项卡、换行符和列。相反,它们单独存储单词,甚至字母,以及单词或字母应该去的位置。

大多数文档格式将表存储为一组表单元格,每个单元格包含文本。PDF 将表格存储为制作表的行的图片前面的文本。

某些 PDF 存储文本,而不是实际文本,而是作为文本图片存储文本。(Doxillion 不是光学字符识别产品,因此必须将这些产品保留为图像。