如何解决Cloudera QuickStart VM HiveQL无法回答一些简单的查询
我有一个包含上述数据的csv文件。我正在使用Cloudera快速入门VM Hive创建表:
create table book(ISBN STRING,Title STRING,Author STRING,Year INT,Publisher STRING) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' STORED AS TEXTFILE;
成功用数据填充了它:
LOAD DATA INPATH 'book.csv' OVERWRITE INTO TABLE book;
SELECT year,count(title) from book group by year;
但是,即使应该有结果,其他简单查询也不会给出结果:
SELECT year,count(title) from book WHERE year < 1990 group by year;
没有给出结果:
查询ID = cloudera_20201007084949_df676aeb-fefb-4a90-a3cc-f16a11dc9fc5 职位总数= 1 启动工作1之1 未指定的缩减任务数。根据输入数据大小估算:1 为了更改减速器的平均负载(以字节为单位): 设置hive.exec.reducers.bytes.per.reducer = 为了限制减速器的最大数量: 设置hive.exec.reducers.max = 为了设置恒定数量的减速器: 设置mapreduce.job.reduces = 开始工作= job_1602081925810_0011,跟踪URL = http://quickstart.cloudera:8088/proxy/application_1602081925810_0011/ 杀死命令= / usr / lib / hadoop / bin / hadoop job -kill job_1602081925810_0011 第1阶段的Hadoop作业信息:映射器数量:1;减速机数量:1 2020-10-07 08:49:35,718第1阶段地图= 0%,减少= 0% 2020-10-07 08:49:45,242第1阶段映射= 100%,减少= 0%,累计cpu 1.99秒 2020-10-07 08:49:53,677第1阶段映射= 100%,减少= 100%,累积cpu 3.47秒 MapReduce累计cpu总时间:3秒470毫秒 结束的工作= job_1602081925810_0011 MapReduce作业启动: 阶段1:映射:1减少:1累积cpu:3.47秒HDFS读取:10550 HDFS写入:0成功 MapReduce花费的总cpu时间:3秒470毫秒 好 花费时间:30.864秒
SELECT MAX(year)FROM book;
那也没有结果。 这两个查询的sql是正确的,我遗漏了什么吗?任何帮助将不胜感激。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。