1. 多线程大批量写入可能导致 OOM
多线程可以加速写入操作,因为每个线程可以独立处理一个 Sheet。
但多线程会导致内存占用增加,因为多个线程可能同时将数据加载到内存中。
如果每个 List 数据量过大,而 JVM 的堆内存不够,就会触发 OOM。
2. 解决 OOM 问题的策略
为了保证程序稳定性并避免 OOM,采取以下措施:
1,使用分批处理数据:将大的 List 分批写入,避免一次性加载所有数据到内存中。
2,使用 SXSSFWorkbook 流式写入:它是 Apache POI 提供的专门用于大数据量 Excel 操作的类。
3,合理设置 JVM 堆内存:通过 JVM 参数如 -Xmx2G 提高堆内存限制。
4,多线程写入:每个线程负责一个 Sheet,实现并发写入加速。
3. 代码示例
假设有三个大 List,我们分别写入 Excel 的三个 Sheet:
依赖引入
使用 Apache POI,需要添加以下依赖(Maven):
<dependency><groupId>org.apache.poi</groupId><artifactId>poi-ooxml</artifactId><version>5.2.3</version>
</dependency>
代码实现
import org.apache.poi.ss.usermodel.*;
import org.apache.poi.xssf.streaming.SXSSFWorkbook;import java.io.FileOutputStream;
import java.io.IOException;
import java.util.*;
import java.util.concurrent.*;public class MultiThreadExcelWriter {// 方法:分批写入数据到 Sheetprivate static void writeDataToSheet(Sheet sheet, List<String> data, int batchSize) {int rowIndex = 0;for (int i = 0; i < data.size(); i += batchSize) {List<String> batch = data.subList(i, Math.min(i + batchSize, data.size()));for (String item : batch) {Row row = sheet.createRow(rowIndex++);Cell cell = row.createCell(0);cell.setCellValue(item);}}}public static void main(String[] args) {// 假设有三个大 Listfinal List<String> list1 = generateLargeList(1000000); // 模拟100万条数据final List<String> list2 = generateLargeList(1000000);final List<String> list3 = generateLargeList(1000000);// 创建线程池,控制并发线程数ExecutorService executor = Executors.newFixedThreadPool(3);// 使用 SXSSFWorkbook 实现流式写入Workbook workbook = new SXSSFWorkbook();// 定义任务List<Callable<Void>> tasks = new ArrayList<>();tasks.add(() -> {Sheet sheet1 = workbook.createSheet("Sheet1");writeDataToSheet(sheet1, list1, 10000); // 分批写入,每批1万条return null;});tasks.add(() -> {Sheet sheet2 = workbook.createSheet("Sheet2");writeDataToSheet(sheet2, list2, 10000);return null;});tasks.add(() -> {Sheet sheet3 = workbook.createSheet("Sheet3");writeDataToSheet(sheet3, list3, 10000);return null;});try {// 执行任务executor.invokeAll(tasks);// 将数据写入 Excel 文件try (FileOutputStream fos = new FileOutputStream("output.xlsx")) {workbook.write(fos);}System.out.println("Excel 文件写入完成!");} catch (InterruptedException | IOException e) {e.printStackTrace();} finally {// 关闭线程池和资源executor.shutdown();try {workbook.close();} catch (IOException e) {e.printStackTrace();}}}// 模拟生成大数据 Listprivate static List<String> generateLargeList(int size) {List<String> list = new ArrayList<>(size);for (int i = 0; i < size; i++) {list.add("Data-" + i);}return list;}
}
4. 代码说明
多线程处理:
使用 ExecutorService 创建固定大小的线程池(3个线程)。
每个线程负责一个 Sheet,并将数据分批写入。
分批写入:
writeDataToSheet 方法中,通过 subList 将数据分成小批次(例如每批 10,000 条)写入。
这样可以避免一次性加载过多数据到内存。
流式写入:
使用 SXSSFWorkbook 代替传统的 XSSFWorkbook,它支持流式写入并限制内存占用。
堆内存设置:
在运行程序时,通过 JVM 参数增加堆内存:
java -Xmx2G -jar yourprogram.jar
这里 -Xmx2G 表示将最大堆内存设置为 2GB
5. 执行结果
Excel 文件生成速度更快,因为三个线程并发写入三个 Sheet。
内存占用更可控,通过分批写入和流式写入避免一次性加载过多数据。
Sheet 顺序:
多线程写入不会改变 Sheet 的顺序,因为 SXSSFWorkbook.createSheet 是线程安全的,并且会按照代码中调用顺序创建 Sheet。