• 因为我们把word转化为pdf,wps默认转化为文字pdf,而图片pdf要会员。
  • 网上确实也有网站可以实现免费的,但是未必安全。
  • 我看了网上的很多代码,都是先把文字pdf先转化为图片,然后再组装成pdf文档。我的思路也是这样的。
  • 但是我和他们很大的不一样就是,我 不需要先把图片保存 起来再提取,而我只需要把图片的信息先存起来,再输出pdf。

先安装依赖

pip install




    
 PyMuPDF

代码1(输入文件列表)

import os
import fitz
def single_wordpdf_to_imgpdf(pdf_path: str):
    pdf = fitz.open(pdf_path)   # 打开pdf目录
    pdf_img = fitz.open()       # 打开空文件,用来存图片pdf
    for page_inf in pdf:
        definition = 3    # 清晰度,感觉输出的pdf不够清晰,可以调大,调大,文件大小也会变大
        matrix = fitz.Matrix(definition, definition)
        img = page_inf.get_pixmap(matrix=matrix).tobytes()
        img = fitz.open("png", img)
        pdf_bytes = img.convert_to_pdf()
        pdf_img.insert_pdf(fitz.open("pdf", pdf_bytes))
    pdf_img.save("图片pdf_" + os.path.basename(pdf_path))
def group_wordpdf_to_imgpdf(path_array: list[str]):
    for pdf_path in path_array:
        print(pdf_path, "转换中...")
        single_wordpdf_to_imgpdf(pdf_path)
    print("完成")
if __name__ == '__main__':
    path = ["xxx.pdf"]
    group_wordpdf_to_imgpdf(path)

代码2(输入文件夹)

import os
import fitz
import time
def single_wordpdf_to_imgpdf(pdf_path: str):
    pdf = fitz.open(pdf_path)   # 打开pdf目录
    pdf_img = fitz.open()       # 打开空文件,用来存图片pdf
    for page_inf in pdf:
        definition = 3    # 清晰度,感觉输出的pdf不够清晰,可以调大,调大,文件大小也会变大
        matrix = fitz.Matrix(definition, definition)
        img = page_inf.get_pixmap(matrix=matrix).tobytes()
        img = fitz.open("png", img)
        pdf_bytes = img.convert_to_pdf()
        pdf_img.insert_pdf(fitz.open("pdf", pdf_bytes))
    if not os.path.exists("output"):
        os.makedirs("output") # 处理好的pdf存入了output目录下 #
    pdf_img.save("output/图片pdf_" + os.path.basename(pdf_path))
def group_wordpdf_to_imgpdf(path_array: list[str]):
    for pdf_path in path_array:
        print(pdf_path, "转换中...")
        single_wordpdf_to_imgpdf(pdf_path)
    print("完成")
def folder_pdf_files(folder: str) -> list[str]:  # 一个文件夹里面有多少pdf文件
    file_list = []
    for a, b, c in os.walk(folder):
        if b == []:
            for filename in c:
                if filename[-3:].lower() == 'pdf':
                    file_path = os.path.join(a, filename)
                    file_list.append(file_path)
    print(folder, ": 有", len(file_list), "个pdf文件")
    return file_list
if __name__ == '__main__':
    time_start = time.time()
    path_list = folder_pdf_files("目录")
    group_wordpdf_to_imgpdf(path_list)
    time_end = time.time()
    print("程序运行时间:", round(time_end - time_start, 2), "秒")

                    为什么会做这个?因为我们把word转化为pdf,wps默认转化为文字pdf,而图片pdf要会员。网上确实也有网站可以实现免费的,但是未必安全。思路我看了网上的很多代码,都是先把文字pdf先转化为图片,然后再组装成pdf文档。我的思路也是这样的。但是我和他们很大的不一样就是,我不需要先把图片保存起来再提取,而我只需要把图片的信息先存起来,再输出pdf。代码import osimport fitzdef single_wordpdf_to_imgpdf(pdf_path: str)
				
文章目录1、从文档页面生成图像page.get_pixmap()参数2、提升图像分辨率3、创建部分像素贴图(`Clips`)4、PDF文档提取图像如何获取`xref`的值呢? 本文记录PyMuPDF库中有关Image的使用方法 关于PyMuPDF库的安装、介绍及基本使用可参考博客: Python处理PDF——PyMuPDF的安装与使用(1)_ling620的专栏-CSDN博客 1、从文档页面生成图像 这个脚本将获取一个文档文件名,并将每个页面生成一个PNG文件保存在脚本目录中。 文档可以是任何受支持的类
def pyMuPDF_fitz(pdfPath, imagePath): startTime_pdf2img = datetime.datetime.now() # 开始时间 print("imagePath=" + imagePath) pdfDoc = fitz.open(pdfPath) for pg in range(pdfDoc.pageCount):
前言:在最近的测试中遇到一个与PDF相关的测试需求,其中有一个过程是将PDF转换图片,然后对图片进行测试。 粗略的试了好几种方式,其中语言尝试了Python和Java,总体而言所找到的Python方式相对比Java更快一些,更简单一些。 下面首先分享一下PythonPDF转换图片,Java+PDFBox将PDF转成图片 需求:我需要先将PDF转换成为PNG图片,并截取图片的一部分存储,然后...
import fitz from reportlab.lib.pagesizes import portrait from reportlab.pdfgen import canvas from PIL import Image 2. pdf图片 def pdf2img(filename): # 打开PDF文件,生成一个对象 doc = fitz.open(filename) pip install pdf2image 同时下载poppler,下载地址是: https://blog.alivate.com.au/wp-content/uploads/2018/08/poppler-0.67.0_x86.7z 解压压缩包,将poppler/bin/ 目录添加至电脑的path的环境变量里。 注意一定要重启
前言:下面的代码有注释,下面的也是参考别人的,但是忘记来源了,因为时间隔太久了,哪位小伙伴看到了,可以提一下链接 方法一,这个测试是有用的,fitz(要install pymupdf) #!/usr/bin/python3 # -*- coding: utf-8 -*- # @Time : 2019/3/19 08:51 # @Author : qizai # @File : fet...
文章目录一、说明二、PDF图片方法1:PyMuPDF①、安装PyMuPDF:②、转换图片代码:方法2:pdf2image①、安装pdf2image②、安装Poppler: 昨天突然想着把PDF转成图片,昨天尝试了许久,没有成功,然后就很纳闷,图片合成PDF就可以,应该转成图片也可以吧,然后网上各种找解决这个问题的方法。 如果需要图片合成PDF的,可以参考一下我之前的一个博客: 使用im...
要在 Python 中将 PDF 转换为表格,您可以使用第三方库,如 PyPDF2、tabula-py、pdfminer等。 PyPDF2 是一个用于处理 PDF 文件的库,您可以使用它来读取 PDF 文件并将其转换为表格。 Tabula-py 是一个使用 Java 实现的库,它可以从 PDF 文件中提取表格数据。 PDFMiner 是一个用于从 PDF 文件中提取文本的库,它也可以提取表格数据。 使用这些库之一,您需要安装它们并导入到 Python 环境中,然后使用其 API 进行转换。具体步骤可能因库而异,请参阅相应的文档以获取更多信息。
java: 找不到符号 符号: 方法 getResourceAsStream(java.lang.String) 位置: 类 com.alibaba.druid.support.loggi KjPrime: 说明没有这个方法?是不是包的版本不对,然后这个方法被其他方法替代了。 java: 找不到符号 符号: 方法 getResourceAsStream(java.lang.String) 位置: 类 com.alibaba.druid.support.loggi 陆之缘二: 好奇怪啊,包都是对的也找不到这个方法 js异步成同步 resolve