在 Kettle 中连接来自不同来源的数据

如何解决在 Kettle 中连接来自不同来源的数据

我的数据库有以下表格：

USER
userid INT
username STRING

USER_SESSION_HISTORY
userid INT (foreign key to USER)
login_date DATETIME

然后我有一个带有这个标题的 CSV：

username;login_date

我需要将 CSV 数据插入到 USER_SESSION_HISTORY 表中。如您所见，我需要连接两个数据源（USER 表和 CSV 文件）才能获取用户 ID。

我是 Kettle 的新手，直到现在才开始学习非常简单的转换。

解决方法

您需要读取 CSV 和 USER 表，在这两个步骤之后，您需要为每个步骤添加一个 Sort 步骤（在 Sort 步骤中检查区分大小写/不敏感的可能性），然后使用合并连接在合并两个数据流的步骤中，将其设置为 LEFT OUTER JOIN，左侧是 CSV 数据（来自排序步骤），右侧是 USER 数据（来自排序步骤），因此对于每个用户名在 CSV 中，您可以查看 USER 表中是否已存在用户名。

在 MERGE JOIN 之后，您放置了一个 Filter 步骤，查看 userid 数据是否为 NULL，如果为 NULL，则表示 CSV 中的用户名不存在，因此您需要先将其插入用户表。

如果您有用户 ID（在上一步中过滤条件为 false），您可以简单地将数据插入到 USER_SESSION_HISTORY 中，并使用您从 MERGE JOIN 中检索到的用户 ID。

对于过滤器中的真实条件（用户数据中没有以前的数据），这将取决于您如何生成用户 ID。如果您有一个与用户 ID 关联的序列，并且该列会自动填充该列对应的下一个值，您可以在 USER 表中插入用户名，数据库会负责填写用户 ID。如果您不能简单地在 USER 表中插入用户名，则必须添加一些中间步骤来生成用户 ID，具体取决于您在数据库中的处理方式。

不知道插入USER表后能不能看到生成的userid，可以测试一下。如果在此转换中可用，则可以在 USER 表中的插入步骤之后添加一个块步骤，等待 USER_SESSION_HISTORY 中的插入步骤完成（对于用户名已存在于 USER 表中的数据，过滤步骤中的错误条件）。块步骤是需要的，因为 Pentaho 会同时运行所有步骤，除非您使用这个块步骤，因此 USER_SESSION_HISTORY 表将被同时执行的两个事务阻塞。在块步骤之后，您为 USER_SESSION_HISTORY 表添加第二个插入步骤。

如果插入后没有可用的用户 ID，我认为更简单的工作方法是使用两个转换，第一个在 USER 表中插入新用户名，第二个转换将数据插入USER_SESSION_HISTORY，在第二次转换中，我们确信我们已经在 USER 表中拥有所有可用的用户名

在 Kettle 中连接来自不同来源的数据

如何解决在 Kettle 中连接来自不同来源的数据

解决方法

相关推荐