如何解决如何衡量数据库中属性之间的相似性?
我正在尝试寻找或开发一种算法,该算法能够根据包含以下内容的词汇表在模式(例如,从数据库中)找到匹配项:名称、数据类型和值范围。
让我用一个简单的例子来解释这个问题:
我们有一个看起来像这样的词汇表。
姓名 | 数据类型 | 取值范围 |
---|---|---|
费用 | 双重 | 500 - 2000 |
速度 | 双重 | 0 - 300 |
月 | 内部 | 1 - 12 |
那么我们的shema也有两个属性,比如:
姓名 | 数据类型 | 取值范围 |
---|---|---|
成本 | 内部 | 600-1800 |
姓名 | 数据类型 | 取值范围 |
---|---|---|
季节 | 内部 | 1 - 4 |
我现在对算法的期望是它可以将词汇表中的第一个属性(“成本”)分配给属性“成本”。由于名称、数据类型和值范围非常相似。另一方面,第二个属性(“季节”)不应分配给词汇表的任何条目,因为名称和值范围都不匹配任何入口。
你知道解决这个问题的任何现有方法吗?
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。