程序员最近都爱上了这个网站  程序员们快来瞅瞅吧!  it98k网:it98k.com

本站消息

站长简介/公众号

  出租广告位,需要合作请联系站长


+关注
已关注

分类  

暂无分类

标签  

暂无标签

日期归档  

Java中的文件解析——Excel解析

发布于2023-02-04 17:42     阅读(996)     评论(0)     点赞(19)     收藏(1)


        在日常的开发过程中,经常会使用到excel工作簿进行数据的保存,那么在java中,通常会使用第三方提供的技术来进行excel文件的解析,比如:Apache POI、JXL、Alibaba EasyExcel。本文则使用的是Apache POI和Alibaba EasyExcel。

   Apache POI

        目前Apache POI用的比较广泛的实现类是XSSFWorkbook(),主要因为当前版本的excel文件大多数都是以“.xlsx”结尾的,XSSFWorkbook()能识别的就是这种文件。当然Apache POI也提供了HSSFWorkbook()实现类,主要适用于以“.xls”结尾的excel文件,但是由于这种文件只能存储65535行数据,所以HSSFWorkbook()已经不常用了。

   Apache POI所需要的jar依赖

   Apache POI 解析Excel文件与创建Excel文件的流程

        创建Excel

       1.创建WorkBook,一个WorkBook代表一个Excel文件

        2.以输出流的形式创建出Excel文件

        3.调用createSheet(0)创建工作簿

        4.调用createRow(0)创建行

        5.调用createCell(0)创建单元格

        6.调用setCellValue()完成对单元格内容的写入

        7.调用write()方法,将Workbook对象中包含的数据,通过输出流,写入至Excel文件

  1. package com.fulian.Demo;
  2. import java.io.FileOutputStream;
  3. import java.io.IOException;
  4. import java.time.LocalDateTime;
  5. import java.util.UUID;
  6. import org.apache.poi.ss.usermodel.Cell;
  7. import org.apache.poi.ss.usermodel.Row;
  8. import org.apache.poi.ss.usermodel.Sheet;
  9. import org.apache.poi.ss.usermodel.Workbook;
  10. import org.apache.poi.xssf.usermodel.XSSFWorkbook;
  11. public class Demo03 {
  12. public static void main(String[] args) {
  13. try (Workbook workbook = new XSSFWorkbook();
  14. FileOutputStream out = new FileOutputStream("d:\\test\\demo.xlsx")) {
  15. // 创建工作簿sheet
  16. Sheet sheet0 = workbook.createSheet("2020数据列表");
  17. Sheet sheet1 = workbook.createSheet("2021数据列表");
  18. Sheet sheet2 = workbook.createSheet("2022数据列表");
  19. //创建数据行Row
  20. Row row0 = sheet0.createRow(0);
  21. Row row = sheet0.createRow(1);
  22. // 创建单元格
  23. Cell cell00 = row0.createCell(0);
  24. cell00.setCellValue("UUID值");
  25. Cell cell0 = row.createCell(0);
  26. cell0.setCellValue(UUID.randomUUID().toString());
  27. Cell cell01 = row0.createCell(1);
  28. cell01.setCellValue("Math随机值");
  29. Cell cell1 = row.createCell(1);
  30. cell1.setCellValue(Math.random()*1000);
  31. Cell cell02 = row0.createCell(2);
  32. cell02.setCellValue("当前时间");
  33. Cell cell2 = row.createCell(2);
  34. cell2.setCellValue(LocalDateTime.now());
  35. // 将Workbook对象中包含的数据,通过输出流,写入至Excel文件
  36. workbook.write(out);
  37. } catch (IOException e) {
  38. // TODO Auto-generated catch block
  39. e.printStackTrace();
  40. }
  41. }
  42. }

      当前新写入 excel文件内容如下

 解析Excel

        1.以输入流的形式获取到excel文件

        2.创建WorkBook,传入该输入流

        3.调用getSheetAt(0),获取到工作簿

        4.调用getRow()获取到行

        5.getCell()获取到单元格

        6.调用getStringCellValue()获取到String的类型的值,调用getNumericCellValue()获取到double类型的值

  1. package com.fulian.Demo;
  2. import java.io.FileInputStream;
  3. import java.io.IOException;
  4. import org.apache.poi.ss.usermodel.Cell;
  5. import org.apache.poi.ss.usermodel.Row;
  6. import org.apache.poi.ss.usermodel.Sheet;
  7. import org.apache.poi.ss.usermodel.Workbook;
  8. import org.apache.poi.xssf.usermodel.XSSFWorkbook;
  9. public class Demo07 {
  10. public static void main(String[] args) {
  11. try (Workbook workbook = new XSSFWorkbook(new FileInputStream("d:\\test\\demo.xlsx"))) {
  12. // 获取工作簿
  13. Sheet sheet = workbook.getSheetAt(0);
  14. for(int i = 1 ; i <= sheet.getLastRowNum();i++) {
  15. Row row = sheet.getRow(i);
  16. // 按照下标获取当前行的单元格
  17. Cell cell0 = row.getCell(0); // UUID
  18. Cell cell1 = row.getCell(1); // Math
  19. Cell cell2 = row.getCell(2); // 日期
  20. System.out.println("UUID值:" + cell0.getStringCellValue());
  21. System.out.println("Math随机值:" + cell1.getNumericCellValue());
  22. System.out.println("当前时间:" + cell2.getNumericCellValue());
  23. }
  24. }catch (IOException e) {
  25. e.printStackTrace();
  26. }
  27. }
  28. }
  29. // 运行结果
  30. UUID值:83d82313-cade-42bf-8aae-193ce655ea56
  31. Math随机值:461.97493844727467
  32. 当前时间:44754.60497915509

        在上面的案例中,我们不难发现:当传入一个日期类型的字段值,excel文件中显示的是数字,因此就必须要设置单元格样式了。

        首先调用workbook的createCellStyle()方法创建单元格格式对象CellStyle,然后调用workbook的createDataFormat()方法,获取到DataFormat类型的对象,通过DataFormat.getFormat(),设置单元格的格式,获取到该格式编码并作为参数传入CellStyle.setDataFormat()方法,在单元格需要设置格式时,调用setCellStyle()方法,传入一个cellStyle对象,最后,调用setCellValue(new Date()),传入一个Date对象,完成对单元格日期格式的设置。

  1. package com.fulian.Demo;
  2. import java.io.FileOutputStream;
  3. import java.io.IOException;
  4. import java.time.LocalDateTime;
  5. import java.util.Date;
  6. import java.util.UUID;
  7. import org.apache.poi.ss.usermodel.Cell;
  8. import org.apache.poi.ss.usermodel.CellStyle;
  9. import org.apache.poi.ss.usermodel.DataFormat;
  10. import org.apache.poi.ss.usermodel.Row;
  11. import org.apache.poi.ss.usermodel.Sheet;
  12. import org.apache.poi.ss.usermodel.Workbook;
  13. import org.apache.poi.xssf.usermodel.XSSFWorkbook;
  14. public class Demo03 {
  15. public static void main(String[] args) {
  16. try (Workbook workbook = new XSSFWorkbook();
  17. FileOutputStream out = new FileOutputStream("d:\\test\\demo.xlsx")) {
  18. // 创建单元格格式
  19. // 获取格式编码
  20. DataFormat dataFormat = workbook.createDataFormat();
  21. short formatCode = dataFormat.getFormat("yyyy-MM-dd HH:mm:ss");
  22. // 创建CellStyle单元格格式对象
  23. CellStyle cellStyle = workbook.createCellStyle();
  24. cellStyle.setDataFormat(formatCode); // 设置单元格格式编码
  25. // 创建工作簿sheet
  26. Sheet sheet0 = workbook.createSheet("2020数据列表");
  27. Sheet sheet1 = workbook.createSheet("2021数据列表");
  28. Sheet sheet2 = workbook.createSheet("2022数据列表");
  29. // 创建数据行Row
  30. Row row0 = sheet0.createRow(0);
  31. Row row = sheet0.createRow(1);
  32. // 创建单元格
  33. Cell cell00 = row0.createCell(0);
  34. cell00.setCellValue("UUID值");
  35. Cell cell0 = row.createCell(0);
  36. cell0.setCellValue(UUID.randomUUID().toString());
  37. Cell cell01 = row0.createCell(1);
  38. cell01.setCellValue("Math随机值");
  39. Cell cell1 = row.createCell(1);
  40. cell1.setCellValue(Math.random() * 1000);
  41. Cell cell02 = row0.createCell(2);
  42. cell02.setCellValue("当前时间");
  43. Cell cell2 = row.createCell(2);
  44. cell2.setCellStyle(cellStyle); // 设置单元格格式
  45. cell2.setCellValue(new Date());
  46. // 将Workbook对象中包含的数据,通过输出流,写入至Excel文件
  47. workbook.write(out);
  48. } catch (IOException e) {
  49. // TODO Auto-generated catch block
  50. e.printStackTrace();
  51. }
  52. }
  53. }

修改后demo文件内容即可正常显示日期类型:

EasyExcel

        EasyExcel是一个基于Java的简单、省内存的读写Excel的开源项目。在尽可能节约内存的情况下支持读写百M的Excel。

EasyExcel所需要的依赖

EasyExcel 解析Excel文件与创建Excel文件的流程

创建Excel文件

        创建文本文件主要使用write()方法,需要的参数是Excel文件的地址,和要写入内容的类型,这里提前准备了一个Order类,在Order类中,注解@ExcelProperty()代表列头单元格的内容,注解@NumberFormat()代表单元格格式,但是如果数据单元格是一个LocalDateTime类型的对象,程序会识别不到,需要定义一个converter转换器对象,官方文档给出了LocalDateTimeConverter实现类,这里就需要手动创建并导入。代码如下:

  1. package com.fulian.demo;
  2. import java.util.ArrayList;
  3. import java.util.List;
  4. import com.alibaba.excel.EasyExcel;
  5. import com.fulian.entity.Order;
  6. public class Demo01 {
  7. public static void main(String[] args) {
  8. // 写入100w
  9. EasyExcel.write("d:\\test\\easy100w.xlsx", Order.class)
  10. .sheet("订单列表")
  11. .doWrite(data());
  12. }
  13. // 创建100w条订单数据
  14. private static List<Order> data() {
  15. List<Order> list = new ArrayList<Order>();
  16. for (int i = 0; i < 1000000; i++) {
  17. list.add(new Order());
  18. }
  19. return list;
  20. }
  21. }

Order类

  1. import java.time.LocalDateTime;
  2. import java.time.format.DateTimeFormatter;
  3. import java.util.UUID;
  4. import com.alibaba.excel.annotation.ExcelProperty;
  5. import com.alibaba.excel.annotation.format.NumberFormat;
  6. public class Order {
  7. @ExcelProperty("订单编号")
  8. private String orderId; // 订单编号
  9. @ExcelProperty("支付金额")
  10. @NumberFormat("¥#,###")
  11. private Double payment; // 支付金额
  12. @ExcelProperty(value = "创建日期",converter = LocalDateTimeConverter.class)
  13. private LocalDateTime creationTime; // 创建时间
  14. public Order() {
  15. this.orderId = LocalDateTime.now().format(DateTimeFormatter.ofPattern("yyyyMMddhhmmss"))
  16. + UUID.randomUUID().toString().substring(0, 5);
  17. this.payment = Math.random() * 10000;
  18. this.creationTime = LocalDateTime.now();
  19. }
  20. public String getOrderId() {
  21. return orderId;
  22. }
  23. public void setOrderId(String orderId) {
  24. this.orderId = orderId;
  25. }
  26. public Double getPayment() {
  27. return payment;
  28. }
  29. public void setPayment(Double payment) {
  30. this.payment = payment;
  31. }
  32. public LocalDateTime getCreationTime() {
  33. return creationTime;
  34. }
  35. public void setCreationTime(LocalDateTime creationTime) {
  36. this.creationTime = creationTime;
  37. }
  38. @Override
  39. public String toString() {
  40. return "Order [orderId=" + orderId + ", payment=" + payment + ", creationTime=" + creationTime + "]";
  41. }
  42. }

LocalDateTimeConverter实现类

  1. package com.fulian.entity;
  2. import java.time.LocalDateTime;
  3. import java.time.format.DateTimeFormatter;
  4. import com.alibaba.excel.converters.Converter;
  5. import com.alibaba.excel.enums.CellDataTypeEnum;
  6. import com.alibaba.excel.metadata.CellData;
  7. import com.alibaba.excel.metadata.GlobalConfiguration;
  8. import com.alibaba.excel.metadata.property.ExcelContentProperty;
  9. public class LocalDateTimeConverter implements Converter<LocalDateTime> {
  10. @Override
  11. public Class<LocalDateTime> supportJavaTypeKey() {
  12. return LocalDateTime.class;
  13. }
  14. @Override
  15. public CellDataTypeEnum supportExcelTypeKey() {
  16. return CellDataTypeEnum.STRING;
  17. }
  18. @Override
  19. public LocalDateTime convertToJavaData(CellData cellData, ExcelContentProperty contentProperty,
  20. GlobalConfiguration globalConfiguration) {
  21. return LocalDateTime.parse(cellData.getStringValue(), DateTimeFormatter.ofPattern("yyyy-MM-dd HH:mm:ss"));
  22. }
  23. @Override
  24. public CellData<String> convertToExcelData(LocalDateTime value, ExcelContentProperty contentProperty,
  25. GlobalConfiguration globalConfiguration) {
  26. return new CellData<>(value.format(DateTimeFormatter.ofPattern("yyyy-MM-dd HH:mm:ss")));
  27. }
  28. }

运行结果

 解析Excel文件

        读取数据需要调用read()方法,参数包括:文件地址,读取内容的类型以及监听器对象,而这里使用的是AnalysisEventListener的一个匿名子类,只重写了3个方法:invoke()方法表示监听器在获取到每行的数据时需要执行的操作;incokeHeadMap()方法表示把列头中的单元格内容存到一个map集合中,后续需要列头时只需要调用map集合即可;doAfterAllAnalysed()方法表示所有数据读完后的操作。代码如下:

  1. package com.fulian.demo;
  2. import java.util.ArrayList;
  3. import java.util.List;
  4. import java.util.Map;
  5. import com.alibaba.excel.EasyExcel;
  6. import com.alibaba.excel.context.AnalysisContext;
  7. import com.alibaba.excel.event.AnalysisEventListener;
  8. import com.fulian.entity.Order;
  9. public class Demo02 {
  10. public static void main(String[] args) {
  11. List<Order> orderList = new ArrayList<Order>();
  12. EasyExcel.read("d:\\test\\easy100w.xlsx", Order.class,new AnalysisEventListener<Order>() {
  13. @Override
  14. public void invoke(Order order, AnalysisContext arg1) {
  15. // 读取每条数据
  16. orderList.add(order);
  17. }
  18. @Override
  19. public void invokeHeadMap(Map<Integer, String> headMap, AnalysisContext context) {
  20. // 读取到列头
  21. System.out.println(headMap);
  22. super.invokeHeadMap(headMap, context);
  23. }
  24. @Override
  25. public void doAfterAllAnalysed(AnalysisContext arg0) {
  26. // 读取完毕
  27. System.out.println("END");
  28. }
  29. }).sheet().doRead();
  30. for(Order order : orderList) {
  31. System.out.println(order);
  32. }
  33. }
  34. }

超大Excel文件的读写时间

XSSF写入数据

比如说要写入100万条数据,如果我们使用XSSFWorkbook()实现类,那么写入的过程中需要占据大量的cpu和内存,耗费时间较慢,代码如下

  1. package com.fulian.Demo;
  2. import java.io.FileOutputStream;
  3. import java.io.IOException;
  4. import org.apache.poi.ss.usermodel.Cell;
  5. import org.apache.poi.ss.usermodel.Row;
  6. import org.apache.poi.ss.usermodel.Sheet;
  7. import org.apache.poi.ss.usermodel.Workbook;
  8. import org.apache.poi.xssf.usermodel.XSSFWorkbook;
  9. public class Demo11 {
  10. public static void main(String[] args) {
  11. long begin = System.currentTimeMillis();
  12. try (Workbook workbook = new XSSFWorkbook();
  13. FileOutputStream out = new FileOutputStream("d:\\test\\demo\\XSSF100w.xlsx")) {
  14. Sheet sheet = workbook.createSheet();
  15. for (int i = 0; i < 1000000; i++) {
  16. Row row = sheet.createRow(i);
  17. Cell cell = row.createCell(0);
  18. cell.setCellValue(i);
  19. }
  20. workbook.write(out);
  21. } catch (IOException e) {
  22. e.printStackTrace();
  23. }
  24. long end = System.currentTimeMillis();
  25. System.out.println("共耗时:" + (end - begin) + "毫秒!");
  26. }
  27. }

结果:

SXSSF写入数据

 使用SXSSFWorkbook()实现类,可以通过设置构造方法中的参数,当内存中的行数达到这个参数值时,会立即释放内存,把数据存储到磁盘中,大大减缓了cpu和内存空间的使用,提高了运行速度。代码如下:

  1. package com.fulian.Demo;
  2. import java.io.FileOutputStream;
  3. import java.io.IOException;
  4. import org.apache.poi.ss.usermodel.Cell;
  5. import org.apache.poi.ss.usermodel.Row;
  6. import org.apache.poi.ss.usermodel.Sheet;
  7. import org.apache.poi.ss.usermodel.Workbook;
  8. import org.apache.poi.xssf.streaming.SXSSFWorkbook;
  9. public class Demo12 {
  10. public static void main(String[] args) {
  11. long begin = System.currentTimeMillis();
  12. try (Workbook workbook = new SXSSFWorkbook(100);
  13. FileOutputStream out = new FileOutputStream("d:\\test\\demo\\SXSSF100w.xlsx")) {
  14. Sheet sheet = workbook.createSheet();
  15. for (int i = 0; i < 1000000; i++) {
  16. Row row = sheet.createRow(i);
  17. Cell cell = row.createCell(0);
  18. cell.setCellValue(i);
  19. }
  20. workbook.write(out);
  21. } catch (IOException e) {
  22. e.printStackTrace();
  23. }
  24. long end = System.currentTimeMillis();
  25. System.out.println("共耗时:" + (end - begin) + "毫秒!");
  26. }
  27. }

结果:

EasyExcel写入数据

  1. package com.fulian.demo;
  2. import java.util.ArrayList;
  3. import java.util.List;
  4. import com.alibaba.excel.EasyExcel;
  5. public class Demo03 {
  6. public static void main(String[] args) {
  7. long begin = System.currentTimeMillis();
  8. // 写入100w
  9. EasyExcel.write("d:\\test\\demo\\easy100w.xlsx", Integer.class).sheet().doWrite(data());
  10. long end = System.currentTimeMillis();
  11. System.out.println("共耗时:" + (end - begin) + "毫秒!");
  12. }
  13. // 创建100w条数据
  14. private static List<Integer> data() {
  15. List<Integer> list = new ArrayList<Integer>();
  16. for (int i = 0; i < 1000000; i++) {
  17. list.add(i);
  18. }
  19. return list;
  20. }
  21. }

结果:

EasyExcel读取数据

读取数据需要调用read()方法,参数包括:文件地址,读取内容的类型以及监听器对象,而这里使用的是AnalysisEventListener的一个匿名子类,只重写了3个方法:invoke()方法表示监听器在获取到每行的数据时需要执行的操作;incokeHeadMap()方法表示把列头中的单元格内容存到一个map集合中,后续需要列头时只需要调用map集合即可;doAfterAllAnalysed()方法表示所有数据读完后的操作。代码如下:

  1. package com.fulian.demo;
  2. import java.util.ArrayList;
  3. import java.util.List;
  4. import java.util.Map;
  5. import com.alibaba.excel.EasyExcel;
  6. import com.alibaba.excel.context.AnalysisContext;
  7. import com.alibaba.excel.event.AnalysisEventListener;
  8. public class Demo04 {
  9. public static void main(String[] args) {
  10. long begin = System.currentTimeMillis();
  11. List<Integer> list = new ArrayList<Integer>();
  12. EasyExcel.read("d:\\test\\demo\\easy100w.xlsx", Integer.class,new AnalysisEventListener<Integer>() {
  13. @Override
  14. public void invoke(Integer i, AnalysisContext arg1) {
  15. // 读取每条数据
  16. list.add(i);
  17. }
  18. @Override
  19. public void invokeHeadMap(Map<Integer, String> headMap, AnalysisContext context) {
  20. // 读取到列头
  21. System.out.println(headMap);
  22. super.invokeHeadMap(headMap, context);
  23. }
  24. @Override
  25. public void doAfterAllAnalysed(AnalysisContext arg0) {
  26. // 读取完毕
  27. System.out.println("END");
  28. }
  29. }).sheet().doRead();
  30. long end = System.currentTimeMillis();
  31. System.out.println("共耗时:" + (end - begin) + "毫秒!");
  32. }
  33. }

 结果:

 结论

        EasyExcel技术在读写超大Excel文件时相比POI读写超大Excel文件上读写速度、性能、内存占用等优势较为明显,而且在是实体类上通过注解的形式,更加明显的表示出excel文件的列名以及单元格的形式,兼容性更强,上手更加容易、灵活。

原文链接:https://blog.csdn.net/qq_45958440/article/details/125750164



所属网站分类: 技术文章 > 博客

作者:gogogo

链接:http://www.javaheidong.com/blog/article/641223/799f9dc1a68a2d175ce6/

来源:java黑洞网

任何形式的转载都请注明出处,如有侵权 一经发现 必将追究其法律责任

19 0
收藏该文
已收藏

评论内容:(最多支持255个字符)