一. 实验内容和要求
给定气象数据集(ftp://ftp.ncdc.noaa.gov/pub/data/noaa上2018年中国地区监测站的数据)cndcdata.zip,编写spark程序实现以下内容:
1、从每一条气象数据中提取到记录时间、经度、纬度、温度、湿度、气压等信息组成一条新的记录。(数据说明见附录)
2、找出温差最大的观测点。
二.分析
1.数据分析
1.原始数据
第一条数据:
0169501360999992018010100004+52970+122530FM-12+043399999V0201401N00101026001C9004700199-02041-02321102941ADDAA124001531AJ100003100000099GA1081+026001101GA2999+999999101GA3999+999999101GE19MSL+99999+99999GF108991081999026001999999MA1999999097051MD1210061-0101REMSYN004BUFR
第二条数据:
0089501360999992018010318004+52970+122530FM-12+043399999V0203601N0000199999999008000199-02681-02991103291ADDAA106999999AA224999999AY101061AY201061MA1999999097371MD1710071+9999MW1051REMSYN004BUFR
第三条数据:
0148501360999992018010509004+52970+122530FM-12+043399999V0202901N0010122000199030000199-01741-02171102081ADDAA106999999AA224999999GA1011+026001101GA2999+999999101GA3999+999999101GE19MSL+99999+99999GF101991011999026001999999MD1710011+9999REMSYN004BUFR
形式为如图:每行代表一条数据
2.对数据分析
提取出关键数据
分析数据得:
每行数据的信息有以下规律:
日期 在第15-23个字符
经度 在第35-41
维度 在第29-34
温度 在第89-92 其符号位在:87
湿度 在第95-98 其符号位在:93
大气压值 在第99-104
3.数据提取后的数据形式
日期 经度 纬度 温度 湿度 大气压值
(20180101,122530,52970,-204,-232,10294)
(20180101,122530,52970,-165,-205,10292)
(20180101,122530,52970,-127,-178,10284)
2.利用spark与scala进行数据分析
(1)对数据进行过滤---filter算子
(2)利用表格型数据结构DataFrame存储数据
df.orderBy(-df("col2")).show ---按第二列数据的大小进行降序排列
df.orderBy(df("col2")).show ---按第二列数据的大小进行升序排列
(3)groupByKey()算子按键的大小
https://blog.csdn.net/weixin_38963816/article/details/80284727
https://blog.csdn.net/dkl12/article/details/80961981
https://blog.csdn.net/weixin_38963816/article/details/80284727
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。