Apache PDFBox是一个开源的Java库,用于处理PDF文件。
要提取PDF中的表格,您可以使用PDFTextStripperByArea类。该类允许您提取特定区域中的文本。通过定义表格所在区域并将其传递给PDFTextStripperByArea,您可以提取表格中的文本。
以下是一个代码示例:
try (PDDocument document = PDDocument.load(new File("input.pdf"))) {
PDFTextStripperByArea stripper = new PDFTextStripperByArea();
stripper.setSortByPosition(true);
PDPage page = document.getPage(0);
Rectangle rect = new Rectangle(70, 140, 500, 60);
stripper.addRegion("class1", rect);
stripper.extractRegions(page);
System.out.println("Text in the area:" + stripper.getTextForRegion("class1"));
} catch (Exception e) {
e.printStackTrace();
希望这对您有所帮助。