从Python中的Kafka更新消息流维护表的最佳数据结构单个过程的优点/缺点关系数据库例如SQLite将表保留在内存中

如何解决从Python中的Kafka更新消息流维护表的最佳数据结构单个过程的优点/缺点关系数据库例如SQLite将表保留在内存中

假设我有一个固定尺寸（N x M）的表格数据集。我收到来自Kafka的更新表中的更新流。最终，我想要一个带有最新版本表的pandas数据框，并且我正在考虑一些这样做的方法：

将其作为表/数据框保存在内存中。我在这里担心的是，我不知道是否可以避免使用多线程，因为一个进程将永远处于接收消息的for循环中。
将其维护在外部结构中，并有一个独立的过程可以从中独立读取。外部数据存储的选择： a）SQLite-可能存在并发问题，并且任意行的更新可能有点混乱。 b）Redis-易于维护，但难以一次查询/读取整个表（这通常是我访问数据的方式）。

我是Kafka的初学者，因此这里的任何建议将不胜感激。您将如何解决这个问题？谢谢！

编辑：我想我也可以将其维护在内存中，然后将整个内容推送到SQLite？

解决方法

我最初的方法是问：我是否可以创建一个“足够好”的解决方案作为开始，然后在需要时对其进行优化？

除非您需要担心非常敏感的信息（例如医疗保健或财务数据）或肯定会非常迅速地扩展的数据，否则我建议您先尝试一个简单的解决方案，然后再看是否遇到任何问题问题。你可能不会！

最终，我可能会从SQLite解决方案开始，因为它的设置相对简单，并且非常适合用例（即“事务”情况）。 >

以下是我要考虑的一些注意事项：

单个过程的优点/缺点

除非您的数据是高速/大容量的，否则您建议在同一过程中使用和处理数据可能会很好。本地处理数据比通过网络接收数据要快得多（假设您的Kafka提要不在本地计算机上），因此从Kafka提取数据可能会成为瓶颈。

但是，要使Python进程无限期地旋转可能会很昂贵，并且您需要确保将数据存储到文件或数据库中，以防止进程关闭时丢失数据。

关系数据库（例如SQLite）

再次使用SQLite之类的关系数据库可能是您最好的选择，这再次取决于所接收数据的速度。但是关系数据库一直被用于事务目的（事实上，这是其主要目的之一），这意味着大量的写入和快速的写入，因此将数据持久保存在SQLite并在那里进行更新绝对是有意义的。如果可以的话（例如第三种标准格式），您可以将数据分成多个单独的表，或者如果更合适，可以将其全部保存在一个表中。

将表保留在内存中

您还可以按照建议的方式将表保留在内存中，只要您在更新后以某种方式（CSV，SQLite等）将其持久化到磁盘上即可。例如，您可以：

将副本保存在内存中。
获取更新时，请对内存表进行更新。
将表写入磁盘。
如果进程停止或重新启动，请从内存中读取表以开始。

但是，熊猫在访问和更新行中的单个值时可能会比较慢，因此实际上可以将表作为字典或其他内容保存在内存中，而无需使用熊猫将其写入磁盘可能更有意义。但是，如果您可以摆脱大熊猫的困扰（例如：速度和体积），那也可能是一个很好的起点。

从Python中的Kafka更新消息流维护表的最佳数据结构 单个过程的优点/缺点关系数据库例如SQLite将表保留在内存中

如何解决从Python中的Kafka更新消息流维护表的最佳数据结构 单个过程的优点/缺点关系数据库例如SQLite将表保留在内存中