微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

讯方大数据开发岗位面试题

讯方面试 -深圳

讯方大数据开发岗位面试题

 

学长1

(1)介绍一下Hive的业务场景及使用经历?

(2)介绍一下Spark的业务场景及使用经历?

(3)简答题:现已从相关网站及平台获取到原始数据集,为保障用户隐私和行业敏感信息,已进行数据脱敏。脱敏后的数据存放hdfs:hoteldata/hoteldata.csv.初始数据集来自多个网站及平台系统,且为多次采集汇总,因此数据集中不可避免地存在一些胜数据,即源数据不在给定的范围内或对于实际业务毫无意义,或是数据格式非法,以及在源系统中存在不规范的编码和含糊的业务逻辑。请分析数据集hoteldata,根据题目规定要求实现数据清洗。基础字段信息包括但不限于:city:tring,hotel:Sring,price:Double,grade:Double,consumer:String,address:tring.roomsNum:String1

(1)城市游客接纳能力是城市规划建设中的重要指标,其中城市的酒店数量和房间数量是城市游客接纳能力的关键要素。请编写程序或脚本根据酒店管理网站中的数据统计各城市的酒店数量和房间数量,以城市房间数量降序排列并输出前10条统计结果,并写入指定的数据库或数据文件

(2)酒店的间夜量也叫间夜数,是酒店在某个时间段内,房间出租率的计算单位。1个房间被使用1个晚上被记作1个间夜数,如一个酒店一周内有30个房间被入住1晚,7个房间被入住两晚,则间夜数为1*30+2*7,44个间夜。

根据现有数据及给定参数完成酒店间夜量数据统计,并写入指定的数据库或数据文件

学长2

1)一面

(1)自我介绍

(2)描述一下数据源和流向

(3)描述一下kafka中broker、topic、partition的关系 相同partition的不同副本如何分布

(4)hive支持文件格式

2)二面

(1)自我介绍

(2)对hadoop生态圈哪些更熟

(3)实时熟还是离线熟 能聊下实时架构吗

(4)描述hbase写数据的流程 region元数据放在哪里

(5)kafka ack应答机制描述

(6)spark数据倾斜了解吗 数据倾斜会导致什么现象 如何判定哪个key造成数据倾斜

(7)hbase大合并和小合并 预分区

(8)flume架构组成 常用的channel类型 常用的sink类型 flume调优指的是哪些

(9)zookeeper选举机制

(10)yarn提交流程

(11)hbase主键设计原则

(12)shell脚本呢 是定时任务还是人工

(13)linux命令 磁盘 内存 剩余内存free 定时任务

(14)es了解吗

(15)问问题,集群交付和技术支持你的职业规划,你冶金工程如何做到软件开发这个行业的,编程语言,上家离职原因,期望薪资。

大数据培训

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐