微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

点击流数据的实时数据预处理

如何解决点击流数据的实时数据预处理

我正在开展一个项目,以实时检测网络用户活动中的异常情况。必须实时检测用户的任何恶意或恶意活动。输入数据是用户的点击流数据。点击数据包含用户 ID(唯一用户 ID)、点击 URL(网页 URL)、点击文本(用户点击的网站中的文本/功能)和信息(用户输入的任何信息)。该项目类似于入侵检测系统(IDS)。我正在使用 python 3.6,我有以下查询

  1. 考虑到数据集中的所有属性都是分类值,哪种方法是进行数据预处理的最佳方法
  2. 可以应用热编码或标签编码等编码方法,但必须实时处理数据,因此难以应用
  3. 根据项目要求,将 3 列(点击 URL、点击文本和键入的信息)视为特征列。

我对如何进行数据预处理感到非常困惑。任何见解或建议将不胜感激

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。