微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

Databricks:在与Random Forest模型相同的笔记本中运行DBscan集群会大大改变模型的预测

如何解决Databricks:在与Random Forest模型相同的笔记本中运行DBscan集群会大大改变模型的预测

TLDR:将DB扫描安装在Databricks笔记本中将极大地改变分类模型的性能,该模型稍后可安装在同一笔记本中。不知道为什么。

我正在Azure Databricks环境中使用pyspark笔记本,并且正在尝试训练一种分类算法(随机森林)以将客户基本上分为两个(不平衡)组。我正在尝试使用数据库扫描为这些客户分配群集标签,然后将这些标签作为功能传递给随机森林模型。

当我在不运行数据库扫描的情况下训练模型时(注释掉了),保留测试集上的结果非常适中。当我清除笔记本的状态并重新运行代码,进行数据库扫描并传递标签作为一项功能时,结果是极好的,甚至比我想像的还要好。但是,如果我将准备好的数据与群集标签一起保存,请清除笔记本状态并训练随机森林再次传入群集标签(只有区别在于该运行不适合DB扫描,仍在使用标签),结果又很谦虚。

我已经进行了几次测试,以确认在模型运行之间唯一改变的是DB扫描正在通过将数据拟合到运行中的行为来获得良好的结果。其他所有内容都相同,代码和数据都传递到随机模型中。

这使我相信,在进行DB扫描拟合之后,数据块集群内部发生了某些事情,这导致随机森林分类模型将积极的案例视为彼此非常相似,即使在具有数据的情况下也是如此。尚未接受培训。这让我感到困惑。谁能解释为什么会这样?还有其他人发生过类似的事情吗?

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。