首页 > 原创文章 > 技术应用 > 查看文章

在Java中使用PDFBox来提取PDF中的文本

所属分类:技术应用 来源: 丁老师原创 更新时间:2025-10-08 09:04 浏览: 1645 IP属地: 深圳

有一个需求,需要提取PDF中表格的文本,项目是java环境,这个问题归属于"Java提取PDF文本"这一类。Java提取pdf文本的方法有很多,也有很多第三方库。丁老师使用的是Apache PDFBox,是Apache的第三方库,开源免费,功能强大,支持对PDF的创建、修改、加密、内容提取、图片解析等功能。

使用PDFBox提取PDF的方式如下:

一、添加Maven依赖

<dependency>
    <groupId>org.apache.pdfbox</groupId>
    <artifactId>pdfbox</artifactId>
    <version>2.0.29</version>
</dependency>

二、实现代码

import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;
import java.io.File;
import java.io.IOException;

public class PDFTextExtractor {

    /**
     * 提取整个PDF文件的文本内容
     * @param pdfFilePath PDF文件路径
     * @return 提取到的文本内容
     * @throws IOException 处理文件时可能出现的异常
     */
    public static String extractAllText(String pdfFilePath) throws IOException {
        //加载PDF文档
        try (PDDocument document = PDDocument.load(new File(pdfFilePath))) {
            //检查文档是否被加密
            if (document.isEncrypted()) {
                throw new IOException("PDF文档已加密,无法提取文本");
            }
            
            //创建PDFTextStripper实例
            PDFTextStripper stripper = new PDFTextStripper();
            
            //提取所有文本
            return stripper.getText(document);
        }
    }

    /**
     * 提取PDF中指定页码范围的文本
     * @param pdfFilePath PDF文件路径
     * @param startPage 起始页码(从1开始)
     * @param endPage 结束页码
     * @return 提取到的文本内容
     * @throws IOException 处理文件时可能出现的异常
     */
    public static String extractTextByPageRange(String pdfFilePath, int startPage, int endPage) throws IOException {
        try (PDDocument document = PDDocument.load(new File(pdfFilePath))) {
            if (document.isEncrypted()) {
                throw new IOException("PDF文档已加密,无法提取文本");
            }
            
            //验证页码范围
            int totalPages = document.getNumberOfPages();
            if (startPage < 1 || endPage > totalPages || startPage > endPage) {
                throw new IllegalArgumentException("无效的页码范围,总页数: " + totalPages);
            }
            
            PDFTextStripper stripper = new PDFTextStripper();
            //设置提取的页码范围
            stripper.setStartPage(startPage);
            stripper.setEndPage(endPage);
            
            return stripper.getText(document);
        }
    }

    public static void main(String[] args) {
        String pdfPath = "example.pdf"; //替换为你的PDF文件路径
        
        try {
            //提取所有文本
            String allText = extractAllText(pdfPath);
            System.out.println("=== 所有文本内容 ===");
            System.out.println(allText.substring(0, Math.min(allText.length(), 500))); // 只打印前500字符
            
            //提取指定页码范围的文本(示例:第1-2页)
            String pageRangeText = extractTextByPageRange(pdfPath, 1, 2);
            System.out.println("\n=== 第1-2页文本 ===");
            System.out.println(pageRangeText.substring(0, Math.min(pageRangeText.length(), 500)));
            
        } catch (IOException e) {
            System.err.println("提取文本失败: " + e.getMessage());
            e.printStackTrace();
        }
    }
}

三、代码说明
PDFTextStripper函数是PDFBox中专门用于提取文本的类,支持各种文本提取需求。

主要方法:
extractAllText():提取 PDF 中所有页面的文本
extractTextByPageRange():提取指定页码范围内的文本。

功能特点:
1.支持自动处理文本的排版和换行。
2.支持设置提取的页码范围。
3.会检查文档是否加密,加密文档需要先解密才能提取。

四、注意事项
1.对于由扫描生成的PDF,因为这个文件是扫描的图片格式,所以PDFTextStripper无法提取文本。对于图片类的文件,可以使用OCR(图片文字提取)类工具进行内容提取。
2.涉及复杂排版的PDF,如学术类文章、包含计算公式等,提取到的文本可能会出现顺序错乱的情况。
3.涉及较大文件提取时,可能会速度过慢并占用系统资源,可以使用分页提取,并在提取后释放资源。
4.某些特殊字体或加密的PDF无法直接提取,需要额外单独处理。


标签:

相关文章

Git同步时提示is not owned b...

最近更换了电脑,装好了git,在对项目同步时提示is not owned by current user的错误,如图:仔细研究了下,这是因为创建项目的电脑git和当前电脑的用户权限不同导致的。直接说解决方法吧:1.进入C盘,C:\Use...

Jquery 简写ready

每次使用都要在网上查询,关键词也不好搜,直接发布在这里,以供不时之需,需要请直接copy。$(function(){ console.log('丁老师软件开发做APP、小程序、网站'); });

Cursor返回the model defa...

最近丁老师团队在开发软件项目时,使用的是Cursor IDE来进行AI辅助开发,前几天一直都用的好好的,今天却突然提示“the model default does not work with your current plan or ...

Spring,Spring Cloud,Sp...

很多想学java的新同学,经常问丁老师,java的spring,spring cloud,spring boot都是些什么东东呀?感觉傻傻分不清楚呢?今天丁老师就给你们解答。首先,spring,spring cloud,spring b...

推荐文章

制作抖音小程序所需要的资料以及费用是多少?

开发抖音小程序所需资料及费用概览随着短视频平台抖音(TikTok)在全球范围内的迅速崛起,越来越多的企业和个人开始意识到在抖音平台上开发小程序的重要性。抖音小程序不仅可以增强品牌曝光率,还能为用户提供更加便捷的服务体验。那么问题来了,开发一...

AI工具大全:好用的AI工具推荐(持续更新中...

这几年AI技术的发展已经达到新的高度,从提高个人生产力到企业操作效率的各个方面,AI都扮演着不可或缺的角色。无论是进行语言交流、内容创作、或是任务管理,都有相应的AI工具可以帮助我们更加轻松地完成工作。以下是丁老师觉得不错的AI工具推荐,希...

Bagisto-基于Laravel框架的免费...

软件介绍Basgito是基于Laravel框架的免费电子商务平台,可以快速搭建自己企业专属的电子商务交易平台,适用于中小型外贸企业。该电商平台拥有无头laravel商务(headless laravel commerce)的强大功能,可以快...

使用photoshop编辑文字时,弹出的文字...

今天有同学在群里提问,在使用photoshop编辑文字时,经常会弹出一个文字选择的面板如图:这时文字也无法输入,也无法取消和关闭,很是烦人,怎么取消这个功能呢?经过丁老师研究,方法很简单:1.打开photoshop菜单-编辑2.选择首选项-...

当前在线
免费咨询