categorical-data - 编程之家

我有一个如下所示的数据集： <pre><code>ID Name Gender Grade 1 Alex M A 2 Barbara F A- 3 Charles M A 4 Daniel

我目前正在创建一个包含大量分类变量的数据集。显然这很好，但是我不希望在将它们转换为虚拟变量

我正在尝试使用交易中购买的项目的现有数据框在 R 中创建一个新的数据框，如下所示：数据的dpu

我的数据集的一部分看起来像这样（我的实际数据中还有许多其他处理器类型） <pre><code>df.head(4) Proc

我已经为这个数据集创建了一个预测模型 <pre><code>>>df.head() Service Tasks Difficulty Hours 0 AB

我试图绘制一个折线图，显示从 2019 年 1 月到 2020 年 10 月在英格兰每个地区犯下的不同类型犯罪的频率

我有 23 列的 ~150,000 观察 DF，其中之一是“groupname”，其中包含 1000 多个不同的组名。如何对这个

我对什么是在线 RE <em>one hot encoding</em> 感到有些困惑。我正在使用 <code>get_dummies</code> 方法，但我不清楚

在 R 中数据集的一个变量中，我有某些值我想更改为 NA 以进行热甲板插补。其中可能的值是：“缺失”

我的一个功能来自“选择所有适用的”形式的问题。这意味着每个条目都有多个以逗号分隔的值，例如

之前在论坛上有人就类似问题提出过一个问题，但对于我的问题，它并没有提供足够的细节。我正

我正在尝试计算我随机生成的数据帧中每个值的比例。数据框由分类值组成。我有 8 列（狗的品

我正在处理一些问题并且有如下疑问：在数据集中有一个具有以下唯一值的文本列： <pre><code>cl

我正在查看chickwts 内置数据集。我想显示每个饲料类别的雏鸡体重平均值的条形图。我可以为计

我正在努力研究如何在表格和图表中说明频率（数字组）按我的数据的排列组大小。我的数据由

当我进行回归并想要效果大小时，我通常会这样做： <pre><code>library(lmSupport) mod <- lm(mpg ~ disp*hp, data

我看到有些人改变了他们想要编码的特征的数据类型（从对象到类别）。

我正在尝试使用 python 使用 RandomForestRegressor。我知道对于数字列，不需要缩放，因为只有一列导致大部

这些是我存储在列表中的分类特征名称 <pre><code>my_list=['MSZoning','Street','LotShape','L

是否有类似 <code>Julia</code> 的函数/方法可以在 <code>R</code> 中生成虚拟变量？我知道我可以使用 <code>RCall<