如何解决高阶类别重叠分析
我正在尝试分析dataset的类别重叠,以最终确定对数据进行分类的最佳方法,以最大程度地减少用于描述数据集的类别的数量。
到目前为止的努力:
我对R和python还是比较陌生,并且已经在Excel中进行了大量此类工作。
- 按照matrix中的建议,我已经能够得出 Category Overlap Analysis question 来分析1°的重叠(即,每对类别的#项重叠)。
- 解开矩阵以得出output,可用于分析每对类别的重叠并确定存在1°重叠的重复项。通过此analysis,我能够识别300个重复的1°分类重叠,这些重叠可以解析为118个唯一类别。
挑战:
- 我正在努力有效地分析高阶分类重叠并确定独立的商品代码
谢谢!
示例可以更好地说明我尝试实现的困难。
数据段
data snippet viewed in worksheet
Category,ItemCode
G0617,5410.001
G0617,5410.006
G0617,5410.903
...
G0080,5410.001
...
G0419,5410.001
...
G0532,5410.001
G0532,5410.903
...
G0616,5410.006
...
G0659,5410.001
G0659,5410.903
...
G0846,5410.001
...
Gtest,5410.903
Gtest,5410.006
理想的输出
ideal output viewed in worksheet
category|equivalent categories|subsumed categories|independent item_code|duplicate category
G0080|||5410.001|
G0419|G0080|||TRUE
G0532||G0080|5410.903|
G0616|||5410.006|
G0617|G0532,G0616;G0080,Gtest;G0532,Gtest|G0080,G0419,G0532,G0616,G0659,G0846||
G0659|G0532|G0080|5410.903|TRUE
G0846|G0080|||TRUE
Gtest||G0616|5410.903|
“重复类别”列将偏向具有较小#号的类别ID。
(即类别完全相同的地方,ID较高的类别将被标记为ID最小的类别的重复。例如,G0419和G0846都被标记为G0080的重复)
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。