有没有一种方法可以识别合并后的pdf中的各个文件并进行相应的分割?

我正在处理的pdf包含单个文件的合并扫描(主要是OCR)。我想把它分割成原始文件。

这些原始文件的长度和大小都是不标准的(因此,adobe的按 "页数 "或 "文件大小 "分割不是一个选项)。顶层书签 "似乎对应于与单个文件不同的东西,因此对它们进行分割也不能提供一个有用的结果。

我已经创建了一个xml版本的文件。我对它不是很熟悉,但看了一下,我无法确定一个标准化的标签或类似的东西来表示一个新文件的开始。

这个问题的答案是 question 需要对合并过程进行控制(我没有这个能力),而这个问题的答案是 question 不起作用,因为我没有标准化的关键词来进行分割。

最终,我想为几百个pdf做这种分割。一个 例子 可以在这里找到要拆分的pdf的内容。

5 个评论
你有问题吗? 如何提问
谢谢你指出缺少一个明确的问题。我用黑体字添加了它。
我没有看到PDF里面有任何提示,可以用于自动方法。
mkl
没有确定的指标。一些启发式方法可能是可行的。媒体和裁剪盒有一定的帮助。
mkl
在文件中,我看到了略有不同的媒体框。有的 [ 0 0 595 842 ] ,有的 [ 0 0 595.32 841.92 ] ,有的 [ 0 0 595.44 842.04 ] ,有的 [ 0 0 595.2 841.9 ] ...。乍一看(只有最初的几页!!),媒体框在同一原件的页面中保持不变。
python
r
xml
pdf
split
shayyy
shayyy
发布于 2022-02-08
1 个回答
K J
K J
发布于 2022-02-09
已采纳
0 人赞同

根据评论中的讨论,一个行动方案是通过python解析页面信息(MediaBox)。然而,我更喜欢一些快速的cmd行命令,而不是在这个轻量级的上网本上编写和测试一个更重的解决方案。

因此,我将建立一个脚本来处理一个循环的文件,并将文件传递给windows控制台,使用 Xpdf命令行工具

Edit 实际上,大多数Python库都倾向于包括pdfinfo的poppler版本(2022-01),所以你应该能够通过你的库调用或请求该变体的反馈。

在你的文件上使用PDFinfo并将其限制在前20页进行快速测试是

【替换代码0 响应将是一个适合比较的文本输出:-

Title:          Microsoft Word - 20190702_Revision_CO2_Verordnung_Detailkommenta
re_SWISS_final
Subject:
Keywords:
Author:         heim
Creator:        PDF24 Creator
Producer:       GPL Ghostscript 9.25
CreationDate:   Thu Jul 18 17:36:26 2019
ModDate:        Thu Jul 18 17:36:26 2019
Tagged:         no
Form:           none
Pages:          223
Encrypted:      no
Page    1 size: 595 x 842 pts (A4) (rotated 0 degrees)
Page    2 size: 595 x 842 pts (A4) (rotated 0 degrees)
Page    3 size: 595.32 x 841.92 pts (A4) (rotated 0 degrees)
Page    4 size: 595.44 x 842.04 pts (A4) (rotated 0 degrees)
Page    5 size: 595.44 x 842.04 pts (A4) (rotated 0 degrees)
Page    6 size: 595.2 x 841.9 pts (A4) (rotated 0 degrees)
Page    7 size: 595.45 x 841.9 pts (A4) (rotated 0 degrees)
Page    8 size: 595.45 x 841.9 pts (A4) (rotated 0 degrees)
Page    9 size: 595.2 x 841.44 pts (rotated 0 degrees)
Page   10 size: 595.2 x 841.44 pts (rotated 0 degrees)
Page   11 size: 595.2 x 841.68 pts (rotated 0 degrees)
Page   12 size: 594.54 x 840.78 pts (rotated 0 degrees)
Page   13 size: 591.85 x 835.45 pts (rotated 0 degrees)
Page   14 size: 593.75 x 835.45 pts (rotated 0 degrees)
Page   15 size: 595.2 x 841.44 pts (rotated 0 degrees)
Page   16 size: 595.32 x 841.92 pts (A4) (rotated 0 degrees)
Page   17 size: 593.5 x 840.7 pts (rotated 0 degrees)
Page   18 size: 594.72 x 840.96 pts (rotated 0 degrees)
Page   19 size: 596 x 842 pts (A4) (rotated 0 degrees)
Page   20 size: 595.2 x 841.68 pts (rotated 0 degrees)
File size:      33926636 bytes
Optimized:      no
PDF version:    1.4