从PDF中提取所有内容

股指期货概念股•2022-5-30•html-js-css•阅读12

概述寻找从PDF文件中提取内容的解决方案(使用控制台工具或库). 它将在服务器上用于从上传的PDF文件中生成在线电子书. 需要提取以下内容： >带字体和样式的文字; >图像; >音频和视频; >链接和热点. >页面快照和缩略图; >一般PDF信息,例如书籍布局,页数等查看Adobe PDF库(仅5000美元),BCL SDK(？),PDFLib(795欧元),QuickPDF(250美元) 现在我们寻找从pdf文件中提取内容的解决方案(使用控制台工具或库).

它将在服务器上用于从上传的pdf文件中生成在线电子书.

需要提取以下内容：

>带字体和样式的文字;
>图像;
>音频和视频;
>链接和热点.
>页面快照和缩略图;
>一般pdf信息,例如书籍布局,页数等

查看Adobe pdf库(仅5000美元),BCL SDK(？),pdflib(795欧元),Quickpdf(250美元)

现在我们使用开源pdf2xml(提取文本,图像和链接)和GhostScript(快照和缩略图).剩下的其他事情是：

>字体;
>多媒体;
>热点;
>页面信息.

我们在支付大量资金(并且可能错误地选择错误的解决方案)或使用免费/开源解决方案之间犹豫不决.

您推荐哪种BEST解决方案从pdf中提取几乎所有内容？

任何评论将不胜感激.

解决方法听起来好几天或几周,您可以根据需要调整开源工具.字体和一切都可以被提取出来,这是每个pdf阅读器必须要做的事情才能显示它们.

您应该估算程序员的成本($/ hr),然后乘以估计所需的时间来添加所需的开源功能(60-80小时？).如果这个更高或接近5000美元,你可能会考虑购买商业软件.

否则,在(相当不错的)PDF reference的帮助下,你应该顺利.

还有一件事,你可能会发现Poppler有所帮助.它用于渲染pdf,但这与您尝试执行的 *** 作非常相关.

总结

以上是内存溢出为你收集整理的从PDF中提取所有内容全部内容，希望文章能够帮你解决从PDF中提取所有内容所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错，欢迎将内存溢出网站推荐给程序员好友。

欢迎分享，转载请注明来源：内存溢出

原文地址:https://www.54852.com/web/1134009.html

打赏

微信扫一扫

支付宝扫一扫

股指期货概念股一级用户组

将已编译的dom转换为angularjs中的html代码

上一篇 2022-05-30

html – 较大可点击区域内的链接(仅限CSS)

下一篇2022-05-30

发表评论

登录后才能评论

评论列表（0条）