微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

雪花中的数据屏蔽

如何解决雪花中的数据屏蔽

如何在 SNowflake 中创建 sql UDF 来实现这一点?我可以在 JS 中实现相同的

需要有关雪花中数据屏蔽的建议吗?

实际: 来自波士顿的客户约翰,致电将新生儿出生日期 01/02/2015 添加到医疗福利中。更新以下SSN 999-999-9999等

预期输出: 来自 xxxxx 的客户 xxxx 致电将新生儿 dob xxxxxxxxx 添加到医疗福利中。使用以下 xxx xxxxxxxxxxxx 等进行更新

解决方法

简短的回答是,现实中不可能实现您想要的(显然,只要您投入足够的时间和资源,一切皆有可能)。

长答案...

您需要能够解析每个文本字符串,识别每个单词,并以 100% 的可靠性确定它是否包含 PII 信息,然后将其屏蔽。

  1. 您将如何识别人们的姓名?您不能仅仅使用它们大写的事实,因为输入数据的人可能没有这样做。此外,句子开头的所有单词都将大写
  2. 即使您可以将“单词”识别为日期,您怎么知道它是 DoB(以及 PII)而不是其他日期?
  3. 您可能有一个类似“2020 年 1 月 1 日”这样的日期 - 您如何将其识别为日期,因为解析单个单词不起作用?

我不相信即使是商业上可用的数据治理解决方案(我有一些经验)也无法可靠地做到这一点。他们几乎总是处理数据列并查看整个列的内容,看看它是否可能是 PII 候选者(通常有一些非常复杂的 AI/ML)——我从未见过可以解析长文本的解决方案字符串,并可以从中提取单个 PII 元素(尽管如果有人知道这样的解决方案,我很想听听)。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。