有效地扫描和查找Elasticsearch索引中的敏感数据

如何解决有效地扫描和查找Elasticsearch索引中的敏感数据

我所拥有的:弹性搜索数据库,用于全文搜索

我的要求是:在给定的Elasticsearch索引中,我需要检测一些敏感数据,例如iban号,信用卡号,护照号,社会保险号,地址等,并将其报告给客户端。将有复选框作为输入参数。例如,客户可以选择信用卡号和护照号,然后单击检测按钮。之后,系统将开始扫描索引,并报告包含信用卡号和护照号的文件。旨在拥有200多种敏感数据类型,客户端将能够对这些类型进行多种选择。

我做了什么::我创建了一个C#应用程序,并将nest库用于ES查询。为了检测每种敏感数据类型,我在C#应用程序中创建了正则表达式和一些特殊的验证规则,这些规则对于手动指定的输入字符串非常有效。

在我的C#应用​​程序中,我使用滚动API创建了一个完全匹配查询。当用户单击“检测”按钮时,我的应用程序将迭代从滚动API返回的所有源记录,对于每个记录,该应用程序将根据客户端的选择执行敏感的数据查找器代码

这里的问题是在ES索引中搜索所有源记录,提取敏感数据并使用大量文档尽可能快地准备报告。我知道ES是为全文搜索而设计的,而不是用于扫描整个系统并带来数据的。但是所有数据现在都在Elasticsearch中,我需要使用此db进行检测操作。

我想知道我是否可以以其他有效的方式做到这一点。使用没有C#应用程序的弹性搜索插件可以解决此问题吗?还是有更好的解决方案来扫描ES索引中的整个源数据?

感谢您的建议。

解决方法

  1. 护照号码,其他敏感信息检测算法应该在索引期间运行一次,或者作为一个单独的作业异步运行,这将使用表示敏感信息存在的标志来更新文档。根据标记,可以搜索相关文档。

  2. 这种情况下的搜索时间分析成本很高,应该避免。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其他元素将获得点击?
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。)
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbcDriver发生异常。为什么?
这是用Java进行XML解析的最佳库。
Java的PriorityQueue的内置迭代器不会以任何特定顺序遍历数据结构。为什么?
如何在Java中聆听按键时移动图像。
Java“Program to an interface”。这是什么意思?
Java在半透明框架/面板/组件上重新绘画。
Java“ Class.forName()”和“ Class.forName()。newInstance()”之间有什么区别?
在此环境中不提供编译器。也许是在JRE而不是JDK上运行?
Java用相同的方法在一个类中实现两个接口。哪种接口方法被覆盖?
Java 什么是Runtime.getRuntime()。totalMemory()和freeMemory()?
java.library.path中的java.lang.UnsatisfiedLinkError否*****。dll
JavaFX“位置是必需的。” 即使在同一包装中
Java 导入两个具有相同名称的类。怎么处理?
Java 是否应该在HttpServletResponse.getOutputStream()/。getWriter()上调用.close()?
Java RegEx元字符(。)和普通点?