1             var pdfReader = new PdfReader("xxx.pdf");
 3             StreamWriter output = new StreamWriter(new FileStream("处理结果.txt", FileMode.Create));
 5             int pageCount = pdfReader.NumberOfPages;
 6             for (int pg = 1; pg <= pageCount; pg++)
 8                 ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
 9                 var value = PdfTextExtractor.GetTextFromPage(pdfReader, pg, strategy);
10                 value = value.Replace(" ", "");
11                 Console.WriteLine(value);
12                 output.Write(value);
13             }
15             output.Flush();
16             output.Close();
17             Console.Write("处理完毕");
18             Console.ReadLine();

该方法读出的汉字不会乱码。

转载于:https://www.cnblogs.com/Aaxuan/p/10545961.html

1 var pdfReader = new PdfReader("xxx.pdf"); 2 3 StreamWriter output = new StreamWriter(new FileStream("处理结果.txt", FileMode.Create)); 4 5 in...
C# 读取 PDF 文档文字内容 通过 iTextSharp 读取 PDF 文件内容,下载地址,下载后解压 itextsharp -dll-core.zip。 只能读取英文和数字,文档中包含的汉字无法正常读取: private string Read Pdf Content(string filepath) string pdf filen...
使用 iTextSharp 将Word文件转换为 PDF 文件的步骤如下: 首先,安装 iTextSharp 库。你可以通过NuGet包管理器或直接从 iTextSharp 官网下载并安装。 在项目中添加对 iTextSharp 库的引用。 使用 以下代码将Word文件转换为 PDF 文件: // 创建一个Document对象 Document document = new Document(); // 创建一...
因业务需要 pdf 中的logo图片需要被换掉其它图片保留. 百度了很久也没找到相关的解决方案. 后来总算是解决了. 总结起来一句话, itextsharp 的文档太少了. 尤其是关于几个基础类的相关文档, 还有 pdf 文档格式也是很要命的难理解. 简直是狗屎般的格式. 废话不多说上代码. private void Main() //读取待替换...
【实例简介】 压缩包中包含 ITextSharp 中文教程用 C# 制作 PDF 文件全攻略. pdf 以及 用 C# 生成 PDF 文件、调用模版生成Word文档 等很多比较实用的实例,详见压缩包与截图,其中附完整源码 【实例截图】 <%@ Page Language=" C# " AutoEventWireup="true" CodeBehind="Default.aspx.cs" Inherits="WordExportTest._Default" %> <!DOCTYPE html PUBLIC "