微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

二手车---task 1

**

二手车预测赛 task 1

**

作为一个大一的新生,本次是我第一次接触数据挖掘竞赛及其相关方面,所以对很多名词都很陌生,这篇文章也主要是我的一些基础知识方面的整理。
一.评估标准
数据分析挖掘的主要评估方式有:
1)平均绝对误差MAE:1.是绝对误差的平均值2.更好地反映预测值误差的实际情况.

2)均方根误差(RMSE):1.是观测值与真值偏差的平方和与观测次数m比值的平方根。2.是用来衡量观测值同真值之间的 偏差

3)标准差(Standard Deviation):1.是方差的算数平方根2.是用来衡量一组数自身的离散程度

本次二手车比赛的评估标准是MAE
二.Pandas
从所给资料我发现数据处理中多次运用到了该模块,而作为一个纯小白的我只能去网上现搜尝试学习。

pandas是一个Python语言的软件包,在我们使用Python语言进行机器学习编程的时候,这是一个非常常用的基础编程库。

pandas适合于许多不同类型的数据,包括
1.具有异构类型列的表格数据,例如sql表格或Excel数据
2.有序和无序(不一定是固定频率)时间序列数据。
3.具有行列标签的任意矩阵数据(均匀类型或不同类型)
4.任何其他形式的观测/统计数据集。

至于pandas的具体用法和内置函数等我在这里不做总结。
三.题目分析
该比赛要求参赛选手根据给定的数据集,建立模型,二手汽车的交易价格。

1.其中数据具有的属性有:
name - 汽车编码
regDate - 汽车注册时间
model - 车型编码
brand - 品牌
bodyType - 车身类型
fuelType - 燃油类型
gearBox - 变速箱
power - 汽车功率
kilometer - 汽车行驶公里
notRepaireddamage - 汽车有尚未修复的损坏
regionCode - 看车地区编码
seller - 销售方
offerType - 报价类型
creatDate - 广告发布时间
price - 汽车价格
v_0’, ‘v_1’, ‘v_2’, ‘v_3’, ‘v_4’, ‘v_5’, ‘v_6’, ‘v_7’, ‘v_8’, ‘v_9’, ‘v_10’, ‘v_11’, ‘v_12’, ‘v_13’,‘v_14’(根据汽车的评论标签等大量信息得到的embedding向量)【人工构造 匿名特征】
数字全都脱敏处理,都为label encoding形式,即数字形式

2.此题为传统的数据挖掘问题,通过数据科学以及机器学习深度学习的办法来进行建模得到结果。

3.主要应用xgb、lgb、catboost,以及pandas、numpy、matplotlib、seabon、sklearn、keras等等数据挖掘常用库或者框架来进行数据挖掘任务。

4.通过EDA来挖掘数据的联系和自我熟悉数据。
四.放链接
xgb算法:xgb
Lgb算法:lgb
catboostcat
数据比赛常用预测模型:LGB、XGB与ANN
EDA:EDA

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐