如何解决PCA用于功能选择
我正在使用数据集 Facebook Live Sellers in Thailand Data Set
为了减少功能,我使用PCA在Python中进行功能选择。我删除了列“ status_published”,并映射了“ status_type”列(从0-1-2-3等)。从这里,我将数据集标准化,将其相应地分为X和Y:
live_scaled = scaler.fit_transform(live_df) # Normalizes the dataset
X_live = live_scaled[:,1:10] # Grabbing X and Y values
Y_live = live_scaled[:,0:1]
pca = PCA(n_components='mle',svd_solver='full')
fit = pca.fit(X_live)
features = fit.transform(X_live)
print("Explained Variance: %s" % (fit.explained_variance_))
给我:
解释方差:[3.45848791 1.75574958 0.96960444 0.93307576 0.70594513 0.6533409 0.374739 0.15033295]
我知道这是每个选定组件所解释的差异量。但是,我对于这些结果是否适合于进一步的分析方法(例如KMeans)还是一无所知。
我的问题是:哪些功能适合进一步分析? 我应该只选择前四列,因为它们给出的方差最大,而其余的丢弃?
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。