Databricks：在与Random Forest模型相同的笔记本中运行DBscan集群会大大改变模型的预测

如何解决Databricks：在与Random Forest模型相同的笔记本中运行DBscan集群会大大改变模型的预测

TLDR：将DB扫描安装在Databricks笔记本中将极大地改变分类模型的性能，该模型稍后可安装在同一笔记本中。不知道为什么。

我正在Azure Databricks环境中使用pyspark笔记本，并且正在尝试训练一种分类算法（随机森林）以将客户基本上分为两个（不平衡）组。我正在尝试使用数据库扫描为这些客户分配群集标签，然后将这些标签作为功能传递给随机森林模型。

当我在不运行数据库扫描的情况下训练模型时（注释掉了），保留测试集上的结果非常适中。当我清除笔记本的状态并重新运行代码，进行数据库扫描并传递标签作为一项功能时，结果是极好的，甚至比我想像的还要好。但是，如果我将准备好的数据与群集标签一起保存，请清除笔记本状态并训练随机森林再次传入群集标签（只有区别在于该运行不适合DB扫描，仍在使用标签），结果又很谦虚。

我已经进行了几次测试，以确认在模型运行之间唯一改变的是DB扫描正在通过将数据拟合到运行中的行为来获得良好的结果。其他所有内容都相同，代码和数据都传递到随机模型中。

这使我相信，在进行DB扫描拟合之后，数据块集群内部发生了某些事情，这导致随机森林分类模型将积极的案例视为彼此非常相似，即使在具有数据的情况下也是如此。尚未接受培训。这让我感到困惑。谁能解释为什么会这样？还有其他人发生过类似的事情吗？