c# itextsharp get text from pdf

在C#中使用iTextSharp库获取PDF文本,您可以使用以下代码示例:

using iTextSharp.text.pdf;
using iTextSharp.text.pdf.parser;
// 打开PDF文档
PdfReader reader = new PdfReader("YourPdfFile.pdf");
// 读取所有页的文本
string text = "";
for (int page = 1; page <= reader.NumberOfPages; page++)
    ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
    string currentText = PdfTextExtractor.GetTextFromPage(reader, page, strategy);
    text += currentText;
// 关闭PDF文档
reader.Close();
// 显示读取的文本
Console.WriteLine(text);

首先,我们需要导入iTextSharp库和相关命名空间。然后,我们打开PDF文档并使用循环遍历所有页。

在每一页中,我们使用SimpleTextExtractionStrategy来提取文本。PdfTextExtractor.GetTextFromPage方法将根据指定的页数、策略和解析器从PDF页面中提取文本。

最后,我们将所有文本连接在一起并输出到控制台。请注意,您也可以将文本保存到文件或处理其它用途。

希望这个示例能够帮助您获取PDF文本。

  •