ACP-大数据分析师错题本

1.存储数据类型

2.HDFS:

存储格式面向行，面向列

分布式文件系统，并不可能只允许单机服务器

解决昂贵服务器的问题

3.Hadoop不适合存储大量小文件

4.数据质量的五个维度：数据一致性（用于度量哪些数据的值在信息含义上是冲突的），数据唯一性（哪些数据是重复的，或数据的哪些属性是重复的），数据时效性（数据随时间的完整变化过程数据），数据准确性（用于度量哪些数据和信息是不正确的，或者数据是超期的），数据完整性（用于度量哪些数据丢失或不可用）

规范性（哪些数据未按统一格式存储），关联性（哪些关联数据缺失或未建立索引）

5.KPI一般指关键绩效指标法，关键指标比如数量（销售量）

6.模型拟合不足是训练误差和验证误差都很大，-> 欠拟合

7.硬盘大小：（原始数据+中间数据+结果数据）*副本数量
8.msp处理任务的工作和作用：

1）读取输入文件，把每一行解析成键值对，每一个键值对调用一次Map函数

2）对传入的键值对，覆盖map函数，实现自己的逻辑，处理键值对输出心得键值对

3）根据键值对键值对精心分区

4）对不同的分区进行数据排序分组，把相同key的value放在一起集合

9.项目请况分析，问题界定，确定项目目标因素，建立项目目标体系，各目标关系确认

10.数据分析重要环节：数据采集，数据建模（处理），数据分析，指标报告

Hive:基于hdfs的数据库服务，支持海量数据处理，不支持实时流处理，主要进行批处理

spark：快速通用的hadoop数据计算引擎，支持多种位用

Ambari:建立配置和管理hadoop的工具，可视化界面，简化系统管理和维护

pig：大规模数据分析平台，将类似sql的数据分析请求转换为一系列经过优化处理的MapReduce运算。批处理，流式

HBASE:列式存储，多用于ELK工作，可以离散存储不是主要功能

12.HDFS元数据采用镜像文件（FSImage）+日志文件（editlogs）备份

FSNameSystem：是NameNode实际记录信息

13.Hadoop MapReduce：批处理计算引擎

HDFS:分布式数据存储

Hadoop Yarn：大数据平台资源调度

Hadoop Hive ：数据仓库工具

14.逻辑回归可以解决非线性问题

15.联机分处理：

快速行，可分析性，多维性，信息性

钻取，切片，切块，旋转（转轴）

17.指标十大要素：指标名称。定义，类属，作用计算方法，计量单位，空间规定，时间规定，指标数值及功能含义，基础数据取得方式

18.分类：定性分析，离散变量预测

回归：定量输出，连续变量预测

19.分类：有监督学习，需要有标注结果训练数据 K最近邻

聚类：无监督学习