有什么能比训练过的RMSE更低的测试RMSE？

如何解决有什么能比训练过的RMSE更低的测试RMSE？

在给定举重运动员希望达到的最大重量的情况下，我正在创建一个在举重过程中举起的重量的模型。为此，我创建了一个数据集，我将其分为两部分-包括所有提升的一个数据集，无论提升是失败还是成功。第二个数据集仅包括全部成功的提升。完整的数据集包含233,000个条目，较小的数据集包含38,000个条目。

我正在尝试通过比较10倍交叉验证RMSE和测试RMSE（使用相同的预测变量在每个模型上创建模型）来通过计算来验证在仅成功数据集与完整数据集之间可能引入多少偏差。每个数据集分为75％的训练，25％的测试和10个分割，以在训练集上进行交叉验证。

动力提升有三项提升，我正在评估这三项模型的预测能力。对于所有三个升降机，完整型号的测试RMSE均高于CV RMSE。但是，小型模型导致的测试RMSE低于CV RMSE。实际上，根据数据的拆分方式，有时甚至将 full 模型拟合到小型数据集上，也会导致测试RMSE低于小型模型的CV RMSE。我在数据集上使用了不同的RNG种子进行了一些不同的拆分，并且在我的测试RMSE处于CV RMSE的0.1个单位以内的情况下看到了一致的结果，有时在CV RMSE之上，但大多数在CV RMSE之下或相同。

我已经根据性别，年龄等检查了数据分割是否正确分层，并将数据分割为与原始数据中的分类器之一相同的比率。与非拆分数据相比，这些比例似乎没有什么不同，因此，我认为班级平衡不适当不是问题。在测试组中似乎也没有易于预测的数据集似乎也无法解决这个问题，因为我已经看到几个不同的组给我相同的结果。我的样本量也很大。

您是否可以从该结果中得出什么样的结论？