如何解决训练模型 - 我们尝试针对整个数据集构建预测的特定类别的数据有多少?
我有一个包含分类列(击球手)的数据框。我试图在分类列中的每个类别中预测另一个连续变量(在每个球上运行)。
date totalballs(to predict) Batsman (category) Runs on each ball (x variable)
2016-03-18 3 Chris 1
2013-02-09 12 Ben 2
2018-01-07 2 Eoin 1
但是,每个类别都包含不同数量的数据。有些提供了连续列的 1000 个样本来训练模型,其他的则不到 12 个。 在具有大量数据的类别中,对特定于该类别的数据进行大量加权会很好,但在数据较少的类别中对整个数据集的权重更高
目前我使用的是线性回归模型(绝不是固定于此)。模型是否会自动权衡特定于分类 x/击球手列的数据点,通常比其他击球手重?如果是这样,与具有较少数据的击球手特定的数据点相比,具有更多数据的击球手的特定数据点的权重是否更大? 有没有办法让模型做到这一点?
目前,对于非常大的类别,我正在提取和训练特定于该类别的数据
dlem = df.copy()
m = dlem.batsman == "Chris Gayle"
dm = dlem[m]
x = dm.drop(['host','batsman','runsadded'],axis=1)
y = dn.runsadded
reg = LinearRegression().fit(x_train,y_train)
而对于较小的类别,我正在对整个数据集进行训练
x = df.drop(['host',axis=1)
y = df.runsadded
reg = LinearRegression().fit(x_train,y_train)
有没有办法在使用整体数据量和特定于相关类别的数据之间找到最佳状态?以及如何找到特定于每个不同大小的类别的最佳值?
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。