二手车---task 1

二手车预测赛 task 1

作为一个大一的新生，本次是我第一次接触数据挖掘竞赛及其相关方面，所以对很多名词都很陌生，这篇文章也主要是我的一些基础知识方面的整理。
一．评估标准
数据分析挖掘的主要评估方式有：
1）平均绝对误差MAE：1.是绝对误差的平均值2.更好地反映预测值误差的实际情况.

2）均方根误差（RMSE）：1.是观测值与真值偏差的平方和与观测次数m比值的平方根。2.是用来衡量观测值同真值之间的偏差

3）标准差(Standard Deviation)：1.是方差的算数平方根2.是用来衡量一组数自身的离散程度

本次二手车比赛的评估标准是MAE
二．Pandas
从所给资料我发现数据处理中多次运用到了该模块，而作为一个纯小白的我只能去网上现搜尝试学习。

pandas是一个Python语言的软件包，在我们使用Python语言进行机器学习编程的时候，这是一个非常常用的基础编程库。

pandas适合于许多不同类型的数据，包括：
1.具有异构类型列的表格数据，例如sql表格或Excel数据
2.有序和无序（不一定是固定频率）时间序列数据。
3.具有行列标签的任意矩阵数据（均匀类型或不同类型）
4.任何其他形式的观测/统计数据集。

至于pandas的具体用法和内置函数等我在这里不做总结。
三．题目分析
该比赛要求参赛选手根据给定的数据集，建立模型，二手汽车的交易价格。

1.其中数据具有的属性有：
name - 汽车编码
regDate - 汽车注册时间
model - 车型编码
brand - 品牌
bodyType - 车身类型
fuelType - 燃油类型
gearBox - 变速箱
power - 汽车功率
kilometer - 汽车行驶公里
notRepaireddamage - 汽车有尚未修复的损坏
regionCode - 看车地区编码
seller - 销售方
offerType - 报价类型
creatDate - 广告发布时间
price - 汽车价格
v_0’, ‘v_1’, ‘v_2’, ‘v_3’, ‘v_4’, ‘v_5’, ‘v_6’, ‘v_7’, ‘v_8’, ‘v_9’, ‘v_10’, ‘v_11’, ‘v_12’, ‘v_13’,‘v_14’（根据汽车的评论、标签等大量信息得到的embedding向量）【人工构造匿名特征】
数字全都脱敏处理，都为label encoding形式，即数字形式

2.此题为传统的数据挖掘问题，通过数据科学以及机器学习深度学习的办法来进行建模得到结果。

3.主要应用xgb、lgb、catboost，以及pandas、numpy、matplotlib、seabon、sklearn、keras等等数据挖掘常用库或者框架来进行数据挖掘任务。

4.通过EDA来挖掘数据的联系和自我熟悉数据。
四．放链接
xgb算法：xgb
Lgb算法：lgb
catboost：cat
数据比赛常用预测模型：LGB、XGB与ANN
EDA：EDA

二手车预测赛 task 1

相关推荐