如何解决如何从 Python 中的网络会话数据中聚类最常见的路由?
我有来自 segment.io 的数据,在 Python 中看起来像以下 df:
NAME | PREV_SCREEN | USER_ID | ORIGINAL_TIMESTAMP
--------------+---------------+---------+-------------------
WalletScreen | HomeScreen | 1111 | 2021-4-26 09:31:28
ProfileScreen | WalletScreen | 1111 | 2021-4-26 09:32:40
WalletScreen | HomeScreen | 2222 | 2021-4-26 09:31:28
ProfileScreen | WalletScreen | 2222 | 2021-4-26 09:32:40
HomeScreen | ProfileScreen | 2222 | 2021-4-26 09:33:40
...
我想最终将用户在每个屏幕上花费的时间(用户的行之间的时间)可视化为 networkx 中的节点大小,并将这些应用程序屏幕之间的公共路由可视化为连接这些节点的边。
我如何总结数千行 df 的最常见路线(可能是无监督聚类)以及这些用户采用最常见路线的平均屏幕时间?
该解决方案可能会反映类似的内容,只是我试图将其放入 networkx,以便稍后在 https://towardsdatascience.com/visualizing-in-app-user-journey-using-sankey-diagrams-in-python-8373a7bb2d22
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。