微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

与 org.apache.parquet.parquet-protobuf 的 1.8.1 相比,为什么在 1.11.0 版本中将 Protobuf 记录转换为 parquet 文件需要这么多时间?

如何解决与 org.apache.parquet.parquet-protobuf 的 1.8.1 相比,为什么在 1.11.0 版本中将 Protobuf 记录转换为 parquet 文件需要这么多时间?

我有一个简单的 protobuf 架构,如下所示:

protobuf:

option java_outer_classname = "SimpleRecords";
message Record {
      required int64 number = 1;
    }

我使用以下代码使用上述记录生成拼花文件

int pageSize = 4 * 1024 * 1024;

LongGenerator longGenerator = new LongGenerator(500_000_000L);
Path filePath = new Path("benchmark/numbers.parquet");

long startTime = System.nanoTime();
try (ParquetWriter<SimpleRecords.Record> writer = new ProtoParquetWriter<>(filePath,SimpleRecords.Record.class,CompressionCodecName.SNAPPY,32*pageSize,pageSize)) {
    SimpleRecords.Record.Builder recordBuilder = SimpleRecords.Record.newBuilder();
    for (Long i : longGenerator) {
        recordBuilder.setNumber(i);
        writer.write(recordBuilder.build());
    }
} catch (IOException e) {
    e.printstacktrace();
}
long endTime = System.nanoTime();

我测量了生成 parquet 文件所需的时间,发现在 1.8.1 版本中需要 103 秒,但在 1.11.0 版本中需要 2167 秒?

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。