在 Python 中处理流数据的最佳方式

如何解决在 Python 中处理流数据的最佳方式

我目前正在开发一个用 Python 编码的交易机器人。它侦听 websocket 流，为我提供 180 个符号的 OHLC 数据字典（每秒 7 个值的 180 个字典）。每分钟我都想为每个符号计算一堆指标。为此，我需要数据为 Pandas df 格式。此外，我想为每个硬币存储最多 600 个 dicts，每当达到 600 个时，将最旧的 150 个发送到 sqlite3 db。

现在我将数据存储在嵌套列表的字典中（例如，klines["BTCUSDT"][-1][0] 表示符号“BTCUSDT”上最近的字典的时间戳）。对于使用 pandas-ta lib 的技术分析，我将符号的嵌套列表转换为 df。当一个符号的嵌套列表达到它的最大长度时，我将 [:150] 发送到我的数据库，然后立即将它们 del [:150] 发送。

因为我需要数据成为 ta 的 df，所以我更愿意一直将其保留为一个。问题是附加到 df 会创建一个新的，这让我遇到了几乎与每次运行 ta 时将我的 dict 列表转换为 df 相同的情况。

是否有更好的方式来存储适合我的需求的数据？

P.s.：是的，我知道过早优化是万恶之源？ :D