如何解决维基媒体浏览量压缩不起作用
我正在尝试分析每月 wikimedia pageview 的统计数据。他们的每日转储还可以,但 2021 年 6 月 (https://dumps.wikimedia.org/other/pageview_complete/monthly/2021/2021-06/pageviews-202106-user.bz2) 的月度报告似乎已损坏:
[radim@sandBox2 pageviews]$ bzip2 -t pageviews-202106-user.bz2
bzip2: pageviews-202106-user.bz2: bad magic number (file not created by bzip2)
You can use the `bzip2recover' program to attempt to recover
data from undamaged sections of corrupted files.
[radim@sandBox2 pageviews]$ file pageviews-202106-user.bz2
pageviews-202106-user.bz2: Par archive data
知道如何提取数据吗?这里使用什么编码?它可以是来自他们的 Hive 分析集群的 Parquet 文件吗?
解决方法
这些文件不是 bzip2 档案。它们是 Parquet 文件。 Parquet-tools 可用于检查它们。
$ java -cp 'target/*:target/dependency/*' org.apache.parquet.cli.Main schema /tmp/pageviews-202106-user.bz2 2>/dev/null
{
"type" : "record","name" : "hive_schema","fields" : [ {
"name" : "line","type" : [ "null","string" ],"default" : null
} ]
}
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。