1 var pdfReader = new PdfReader("xxx.pdf");
3 StreamWriter output = new StreamWriter(new FileStream("处理结果.txt", FileMode.Create));
5 int pageCount = pdfReader.NumberOfPages;
6 for (int pg = 1; pg <= pageCount; pg++)
8 ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
9 var value = PdfTextExtractor.GetTextFromPage(pdfReader, pg, strategy);
10 value = value.Replace(" ", "");
11 Console.WriteLine(value);
12 output.Write(value);
13 }
15 output.Flush();
16 output.Close();
17 Console.Write("处理完毕");
18 Console.ReadLine();
该方法读出的汉字不会乱码。
转载于:https://www.cnblogs.com/Aaxuan/p/10545961.html
1 var pdfReader = new PdfReader("xxx.pdf"); 2 3 StreamWriter output = new StreamWriter(new FileStream("处理结果.txt", FileMode.Create)); 4 5 in...
C#
读取
PDF
文档文字内容
通过
iTextSharp
读取
PDF
文件内容,下载地址,下载后解压
itextsharp
-dll-core.zip。
只能读取英文和数字,文档中包含的汉字无法正常读取:
private string Read
Pdf
Content(string filepath)
string
pdf
filen...
使用
iTextSharp
将Word文件转换为
PDF
文件的步骤如下:
首先,安装
iTextSharp
库。你可以通过NuGet包管理器或直接从
iTextSharp
官网下载并安装。
在项目中添加对
iTextSharp
库的引用。
使用
以下代码将Word文件转换为
PDF
文件:
// 创建一个Document对象
Document document = new Document();
// 创建一...
因业务需要
pdf
中的logo图片需要被换掉其它图片保留.
百度了很久也没找到相关的解决方案. 后来总算是解决了.
总结起来一句话,
itextsharp
的文档太少了. 尤其是关于几个基础类的相关文档, 还有
pdf
文档格式也是很要命的难理解. 简直是狗屎般的格式.
废话不多说上代码.
private void Main()
//读取待替换...
【实例简介】
压缩包中包含
ITextSharp
中文教程用
C#
制作
PDF
文件全攻略.
pdf
以及 用
C#
生成
PDF
文件、调用模版生成Word文档 等很多比较实用的实例,详见压缩包与截图,其中附完整源码
【实例截图】
<%@ Page Language="
C#
" AutoEventWireup="true" CodeBehind="Default.aspx.cs" Inherits="WordExportTest._Default" %>
<!DOCTYPE html PUBLIC "