如何解决PCA降维之前具有多个选项的数值编码分类数据
我有一个包含大约 800 万个样本和大约 20 个维度(特征)的数据集。样本对应于给定用户的电视消费,特征分类有多个选项,从二元特征(直播/非直播、接受 cookie/不接受...)到具有多个选项的特征(主题、地区、用户id,内容 id...)。有些功能甚至有成千上万个选项。
我的目标是使用一些无监督算法减少维数,因为我想执行聚类来检测电视消费组。我的第一个想法是使用主成分分析 (PCA) 算法来减少维数,所以我应该先对分类数据进行编码。
我使用 Python 语言,所以我曾考虑使用 sklearn 库中众所周知的方法 One Hot Enconding 但随后我将拥有数十万列(维度),因为有功能有很多选项(用户 ID、内容 ID...)。
是否有更多选项可用于编码分类数据并为主成分分析 (PCA) 算法做好准备?使用给定特征的发生概率是个好主意吗? (# 计数 / N 个样本)。另外,我想每个特征的数据都应该标准化(相同比例),对吗?
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。