如何解决与 org.apache.parquet.parquet-protobuf 的 1.8.1 相比,为什么在 1.11.0 版本中将 Protobuf 记录转换为 parquet 文件需要这么多时间?
protobuf:
option java_outer_classname = "SimpleRecords";
message Record {
required int64 number = 1;
}
int pageSize = 4 * 1024 * 1024;
LongGenerator longGenerator = new LongGenerator(500_000_000L);
Path filePath = new Path("benchmark/numbers.parquet");
long startTime = System.nanoTime();
try (ParquetWriter<SimpleRecords.Record> writer = new ProtoParquetWriter<>(filePath,SimpleRecords.Record.class,CompressionCodecName.SNAPPY,32*pageSize,pageSize)) {
SimpleRecords.Record.Builder recordBuilder = SimpleRecords.Record.newBuilder();
for (Long i : longGenerator) {
recordBuilder.setNumber(i);
writer.write(recordBuilder.build());
}
} catch (IOException e) {
e.printstacktrace();
}
long endTime = System.nanoTime();
我测量了生成 parquet 文件所需的时间,发现在 1.8.1 版本中需要 103 秒,但在 1.11.0 版本中需要 2167 秒?
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。