微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

记录跨多个数据集链接的最佳方法

如何解决记录跨多个数据集链接的最佳方法

我一直在尝试使用重复数据删除库来使用 2 个数据集进行记录链接。我现在想用它来链接 10 个(或更多)数据集中的记录。

没有规范的数据集。一条记录可能只出现在一个数据集中,最多出现在所有十个数据集中,但只会在单个数据集中出现一次(该数据集独有)。

链接记录的最佳方式是什么?记录链接同时比较两个数据集;要跨多个数据集进行比较,我需要相互比较。例如,如果我有 3 组(A、B、C),我需要比较 A & B、A & C 和 B & C。这是正确的吗?直觉上,我认为像这样链接彼此独立的数据集可能会产生虚假链接,其中记录 A1 链接到 B1,B1 链接到 C1,但 A1 无法链接到 C1; C1应该被认为是链接的吗? docs note 这是一个挑战。

那么将其视为单个大型数据集并在整个事物中查找重复项会更好吗?这会改善结果吗?会有什么坏处?

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。