您的位置:首页 > 文旅 > 旅游 > 国家税务总局网上怎样领发票_无锡专业网站建设公司_平面设计培训班学费一般多少_外链生成工具

国家税务总局网上怎样领发票_无锡专业网站建设公司_平面设计培训班学费一般多少_外链生成工具

2024/12/23 4:56:34 来源:https://blog.csdn.net/weixin_45086164/article/details/144264840  浏览:    关键词:国家税务总局网上怎样领发票_无锡专业网站建设公司_平面设计培训班学费一般多少_外链生成工具
国家税务总局网上怎样领发票_无锡专业网站建设公司_平面设计培训班学费一般多少_外链生成工具

安装pom依赖

<!--        解析pdf--><dependency><groupId>org.apache.pdfbox</groupId><artifactId>pdfbox</artifactId><version>2.0.27</version> <!-- 请检查并使用最新版本 --></dependency>

测试读取pdf文件信息

package com.ruoyi.sky.domain;import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;
import org.apache.poi.hssf.usermodel.HSSFWorkbook;
import org.apache.poi.ss.usermodel.Cell;
import org.apache.poi.ss.usermodel.Row;
import org.apache.poi.ss.usermodel.Sheet;
import org.apache.poi.ss.usermodel.Workbook;
import org.apache.poi.xssf.usermodel.XSSFWorkbook;import java.io.File;
import java.io.FileOutputStream;
import java.io.IOException;public class PDFReader {/*** 从指定路径的 PDF 文件中提取文本内容。** @param pdfFilePath PDF 文件的路径* @return 提取的文本内容*/public static String extractTextFromPDF(String pdfFilePath) {PDDocument document = null;try {// 打开 PDF 文档document = PDDocument.load(new File(pdfFilePath));// 创建 PDFTextStripper 对象用于提取文本PDFTextStripper pdfStripper = new PDFTextStripper();// 设置是否按照原始顺序提取文本(可选)pdfStripper.setSortByPosition(true);// 提取文本return pdfStripper.getText(document);} catch (IOException e) {e.printStackTrace();} finally {// 关闭文档以释放资源if (document != null) {try {document.close();} catch (IOException e) {e.printStackTrace();}}}return null;}private static void writeTextToExcel(String pdfText, String excelFilePath) throws IOException {// 判断excel文件类型boolean isXlsx = excelFilePath.endsWith(".xlsx");// 创建Workbook对象Workbook workbook = isXlsx ? new XSSFWorkbook() : new HSSFWorkbook();// 创建Sheet对象Sheet sheet = workbook.createSheet("Sheet1");// 将pdfText按行分割String[] lines = pdfText.split("\n");// 初始化行索引int rowIndex = 0;// 遍历每一行for (String line : lines) {// 创建Row对象Row row = sheet.createRow(rowIndex++);// 将每一行按单元格分割(先尝试用制表符)String[] cells = line.split("\t"); // 使用\t表示制表符// 初始化单元格索引int cellIndex = 0;// 遍历每一个单元格for (String cellValue : cells) {// 对每个单元格值进一步检查是否有空格if (cellValue.contains(" ")) {// 如果有空格,再按照一个或多个连续的空格进行分割String[] subCells = cellValue.split("\\s+");for (String subCellValue : subCells) {// 创建Cell对象Cell cell = row.createCell(cellIndex++);// 设置单元格的值cell.setCellValue(subCellValue);}} else {// 创建Cell对象Cell cell = row.createCell(cellIndex++);// 设置单元格的值cell.setCellValue(cellValue);}}}// 将Workbook对象写入文件workbook.write(new FileOutputStream(excelFilePath));// 关闭Workbook对象workbook.close();}public static void main(String[] args) throws IOException {// 指定 PDF 文件的路径String pdfFilePath = "D:\\Users\\Administrator\\Desktop\\关务\\测试.pdf";String excelFilePath = "D:\\Users\\Administrator\\Desktop\\关务\\dome.xlsx";// 调用方法提取文本并打印String text = extractTextFromPDF(pdfFilePath);if (text != null) {System.out.println(text);writeTextToExcel(text, excelFilePath);System.out.println("PDF已成功转换为Excel!");} else {System.out.println("无法读取 PDF 文件或文件为空。");}}
}

效果图
在这里插入图片描述

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com