微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

java – 从HDFS读取一个简单的Avro文件

我试图简单读取存储在HDFS中的Avro文件.我发现当它在本地文件系统上时如何阅读….
FileReader reader = DataFileReader.openReader(new File(filename),new GenericDatumReader());

for (GenericRecord datum : fileReader) {
   String value = datum.get(1).toString();
   System.out.println("value = " value);
}

reader.close();

但是,我的文件是HDFS.我不能给openReader一个Path或一个FSDataInputStream.如何在HDFS中读取Avro文件

编辑:我通过创建实现SeekableInput的自定义类(SeekableHadoopInput)来实现此目的.我从github上的“Ganglion”“偷”了这个.似乎仍然会有一个Hadoop / Avro集成路径.

谢谢

解决方法

FsInput类(在avro-mapred子模块中,因为它依赖于Hadoop)可以做到这一点.它提供Avro数据文件所需的可搜索输入流.
Path path = new Path("/path/on/hdfs");
Configuration config = new Configuration(); // make this your Hadoop env config
SeekableInput input = new FsInput(path,config);
DatumReader<GenericRecord> reader = new GenericDatumReader<GenericRecord>();
FileReader<GenericRecord> fileReader = DataFileReader.openReader(input,reader);

for (GenericRecord datum : fileReader) {
    System.out.println("value = " + datum);
}

fileReader.close(); // also closes underlying FsInput

原文地址:https://www.jb51.cc/java/127825.html

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐