使用PHP提取PDF元数据字段

内容来源于 Stack Overflow,遵循 CC BY-SA 4.0 许可协议进行翻译与使用。IT领域专用引擎提供翻译支持

腾讯云小微IT领域专用引擎提供翻译支持

原文
Stack Overflow用户 提问于2020-10-13

我在我的共享主机网络服务器上有一系列的PDF文件,我正在为它们写一个PHP脚本,以便在屏幕上对它们进行分类。我已经在PDF文件中添加了元数据--文档标题、作者和主题。文件名由作者和标题组成,因此我可以从中构造目录文本。但是,我也想显示“Subject”元数据字段的内容。

因为我使用的是共享主机,所以我无法安装任何额外的PHP扩展。他们有PDFLib的免费版本,但不包括任何加载PDF文件或提取元数据的功能。

这是目前为止仅显示文件名列表的脚本...

function catalogue($folder){
  $files = preg_grep('/^([^.])/', scandir($folder));
  foreach($files as $file){
    echo($file.'<br/>');
}

所以,我没有取得太大的进展:

我尝试过 PDF_open_pdi_document() ,但这不是已安装的PDFLib扩展的一部分。我试过 PDF_pcos_get_string() 但我得到的..。

PDF_pcos_get_string($file,0,'author');

...is...

pdf_pcos_get_string(): supplied resource is not a valid pdf object resource

...and我可以在网上找到关于这个功能的帮助。从字面上看什么都没有!

我在共享主机上运行PHP 7.4。

浏览 81 关注 0 得票数 2
  • 得票数为Stack Overflow原文数据
原文
操作
回答于2020-10-13
得票数 2

元数据不像PDF那样加密,所以你可以使用file_get_contents,找到主题的模式(<

修改于2020-10-13
  • 该回答已被编辑
  • 回答者: Stack Overflow用户
  • 回答时间: 2020-10-13 05:40
得票数 1

谢谢@drdlp。我已经使用 file_get_contents() 加载了PDF,并提取和显示元数据。

function catalogue($folder){
  $files = preg_grep('/^([^.])/', scandir($folder));
  foreach($files as $file){
    $page = file_get_contents($file);
    $metadata = preg_match_all('/\/[^\(]*\(([^\/\)]*)/',$page,$matches);
    $author = $matches[1][0];
    $subject = $matches[1][4];
    $title = $matches[1][5];
    echo($title.'/'.$subject.'/'.$author.'<br>');
/

然而,对于一个文件夹中的40多篇PDF文章来说,这是非常慢的。

我怎么才能加快速度呢?

我已经开始尝试使用 pdf.js ,我可以先加载文件中的所有基本细节(文件名等),然后在页面加载后使用Javascript对其进行更新。

然而,我显然对Javascript的了解还不够多,无法让它工作。这就是我到目前为止所拥有的,并且我被困住了。我已经从 mozilla.github.io/pdf.js/build/pdf.js 导入了pdf.js ...

function pdf_metadata(file_url,id){
  var pdfjsLib = window['pdfjs-dist/build/pdf'];
  pdfjsLib.GlobalWorkerOptions.workerSrc = '//mozilla.github.io/pdf.js/build/pdf.worker.js';
  var loadingTask = pdfjsLib.getDocument(file_url);
  loadingTask.promise.then(function(pdf) {
    pdf.getMetadata().then(function(details) {
      console.log(details);
      document.getElementById(id).innerHTML=details;