程序员最近都爱上了这个网站  程序员们快来瞅瞅吧!  it98k网:it98k.com

本站消息

站长简介/公众号

  出租广告位,需要合作请联系站长


+关注
已关注

分类  

暂无分类

标签  

暂无标签

日期归档  

暂无数据

使用 PDFBox 2.0.2 缺少类 PDFTextStripper() 从 PDF 中提取文本

发布于2021-06-12 09:22     阅读(182)     评论(0)     点赞(3)     收藏(2)


我在java中使用PDFBox 1.8.10实现了简单的文本提取方法。由于某些原因,我必须将库升级到 PDFBox 2.0.2。可能 PDFTextStripper() 方法被删除或在新版本中找到另一个包。有没有办法解决这个问题?或者你能建议另一种从PDF中获取文本的方法吗?

这是我的代码:

public String extractTextFromPdf() {
     File jInputFile = new File("c:/lorem/ipsum.pdf");
     PDDocument PDDoc = PDDocument.load(jInputFile ); 
     String strContent = new PDFTextStripper().getText(PDDoc);
     PDDoc.close();
     return strContent;
}

提前致谢。


解决方案


试试这个

{
    PDDocument document = null;
    document = PDDocument.load(new File("test.pdf"));
    document.getClass();
    if (!document.isEncrypted()) {
        PDFTextStripperByArea stripper = new PDFTextStripperByArea();
        stripper.setSortByPosition(true);
        PDFTextStripper Tstripper = new PDFTextStripper();
        String st = Tstripper.getText(document);
        System.out.println("Text:" + st);
    }
} catch (Exception e) {
    e.printStackTrace();
}`


所属网站分类: 技术文章 > 问答

作者:黑洞官方问答小能手

链接:http://www.javaheidong.com/blog/article/221763/cf9139b0a7a6c8ed57fc/

来源:java黑洞网

任何形式的转载都请注明出处,如有侵权 一经发现 必将追究其法律责任

3 0
收藏该文
已收藏

评论内容:(最多支持255个字符)