微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

如何确保所有用户和所有项目都出现在我的推荐系统的训练集中?

如何解决如何确保所有用户和所有项目都出现在我的推荐系统的训练集中?

我正在使用 MovieLens 数据集 (https://grouplens.org/datasets/movielens/latest/) 在 Python 中构建一个推荐系统。为了让我的系统正常工作,我需要所有用户和所有项目都出现在训练集中。但是,我还没有找到一种方法来做到这一点。我尝试在与每个用户相关的数据集的分区上使用 sklearn.model_selection.train_test_split,然后将结果连接起来,从而成功地创建了包含每个用户给出的至少一个评分的训练和测试数据集。我现在需要的是找到一种方法来创建训练和测试数据集,其中每部电影至少包含一个评分。

解决方法

这个要求非常合理,但我所知道的任何框架的数据摄取例程都不支持。大多数训练范式都假设您的数据集填充得足够多,遗漏任何一个输入或输出的可能性可以忽略不计。

既然你需要保证这一点,你就需要切换到算法解决方案,而不是概率解决方案。我建议你用输入和输出标记每个观察,然后将“集合覆盖问题”应用到数据集。

您可以根据需要继续使用尽可能多的不同覆盖集来填充您的训练集(我推荐)。或者,您可以设置一个较低的要求阈值——比如获得三组总覆盖率——然后将其余部分恢复为随机方法。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其他元素将获得点击?
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。)
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbcDriver发生异常。为什么?
这是用Java进行XML解析的最佳库。
Java的PriorityQueue的内置迭代器不会以任何特定顺序遍历数据结构。为什么?
如何在Java中聆听按键时移动图像。
Java“Program to an interface”。这是什么意思?