我想让用户上传一个PDF,将该PDF转换为HTML代码,并将该代码插入一个
<div>
来显示该PDF文档。我正在使用PDFMiner来分析上传的PDF。当我把它转换为HTML时,HTML很乱,文件显示错误
HTML Mess
.我已经试过XML,但还是无法使用,因为文本显示时没有空格。我怎样才能改善这个问题?谢谢你。
如何用Python将PDF转换为干净的HTML
1
人不认可
3
个评论
应该使用PDF.js这样的库来显示PDF,而不是转换为HTML。
mozilla.github.io/pdf.js
@MaxiMouse 我想在我的页面的其他元素中显示PDF,比如一个div。PDF.js能帮助实现这个目标吗?另外,我认为PDF.js是在网络服务器上运行的,而我在这个项目中使用了Python。有没有类似于pdf.js的用Python编写的库?我还没有找到可靠的东西。
PDF.js在浏览器中运行。它将PDF渲染到一个
canvas
元素上,你可以把它放到一个div中。
lukebaker
发布于
2019-11-26
3
个回答
Maksym Polshcha
发布于
2021-02-16
0
人赞同
mphil4
发布于
2021-02-16
0
人赞同
为什么不尝试使用现有的PDF到HTML转换器呢?一个使用现有库的例子。
import pdftables_api
c = pdftables_api.Client('my-api-key')
c.html('input.pdf', 'output.html')
Tilal Ahmad
发布于
2021-02-16
0
人赞同
如果你有兴趣尝试一些其他的Python包,那么我建议
用于Python的Aspose.Words Cloud SDK
.它尊重PDF到HTML转换中的格式。
# For complete examples and data files, please go to https://github.com/aspose-words-cloud/aspose-words-cloud-python
# Import module
import asposewordscloud
import asposewordscloud.models.requests
from shutil import copyfile
# Please get your Client ID and Secret from https://dashboard.aspose.cloud.
client_id='xxxxxx-xxxx-xxxx-xxxx-xxxxxxxxx'
client_secret='xxxxxxxxxxxxxxxxxxxxxxxxxxx'
words_api = asposewordscloud.WordsApi(client_id,client_secret)
words_api.api_client.configuration.host='https://api.aspose.cloud'
filename = 'C:/Temp/02_pages.pdf'
dest_name = 'C:/Temp/02_pages.html'
#Convert RTF to text
request = asposewordscloud.models.requests.ConvertDocumentRequest(document=open(filename, 'rb'), format='html')
result = words_api.convert_document(request)