pdfbox 提取表格

Apache PDFBox是一个开源的Java库,用于处理PDF文件。

要提取PDF中的表格,您可以使用PDFTextStripperByArea类。该类允许您提取特定区域中的文本。通过定义表格所在区域并将其传递给PDFTextStripperByArea,您可以提取表格中的文本。

以下是一个代码示例:

try (PDDocument document = PDDocument.load(new File("input.pdf"))) {
    PDFTextStripperByArea stripper = new PDFTextStripperByArea();
    stripper.setSortByPosition(true);
    PDPage page = document.getPage(0);
    Rectangle rect = new Rectangle(70, 140, 500, 60);
    stripper.addRegion("class1", rect);
    stripper.extractRegions(page);
    System.out.println("Text in the area:" + stripper.getTextForRegion("class1"));
} catch (Exception e) {
    e.printStackTrace();

希望这对您有所帮助。

  •