相关文章推荐
孤独的脆皮肠  ·  python ...·  11 月前    · 
深沉的烈马  ·  spring boot ...·  1 年前    · 
逆袭的拖把  ·  gtk3 - ...·  1 年前    · 

python pdf转txt乱码

在 Python 中,可以使用 PyPDF2 库来读取 PDF 文件,然后使用 codecs 库来解码文本。下面是一个例子:

import codecs
import PyPDF2
with open('input.pdf', 'rb') as f:
    pdf = PyPDF2.PdfFileReader(f)
    n_pages = pdf.getNumPages()
    for i in range(n_pages):
        page = pdf.getPage(i)
        text = page.extractText()
        text = text.encode('utf-8')
        with codecs.open('output.txt', 'a', encoding='utf-8') as f:
            f.write(text)

在这个例子中,我们打开了一个 PDF 文件,然后循环遍历每一页。对于每一页,我们使用 extractText 方法提取文本,然后将其编码为 UTF-8。最后,我们打开一个文本文件,并使用 UTF-8 编码将文本写入文件中。

  •