微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

从“零开始”创建一个具有特定比率/值的大型频率表?

如何解决从“零开始”创建一个具有特定比率/值的大型频率表?

我有一个我无法弄清楚必须解决的问题。 我有 3 个(tibble)数据框,其中只有不同种群的名称

df1 是瑞典所有唯一的姓氏,也是一个计数列。

  • 382.492(唯一名称 * 计数)= df1 中的 10002985 人。
  • 10002985 是此“实验”中的总人口

df2 是瑞典所有注册律师的名单。

  • 人口中共有 6211 名律师。

df3 是瑞典所有具有贵族姓氏的人的列表

  • 人口中有 542 个独特的名字和 46851 名贵族姓氏。

我们也知道在律师小组中有:

  • 106 名贵族律师。

现在我的问题是我只想用所有这些信息创建一个 df。 它应该是这样的:

enter image description here

主要思想是创建一个 df,每个群体只有一行:10002985 行。 贵族和律师是一个虚拟变量,其中 1 = 是,0 = 否。例如:对于tot_pop,46851人应该有noble = 1,而该组中的106人应该有lawyer = 1。

请注意,我并不真正关心名字是什么 - 我只关心比例。

还要注意,我想创建一个没有名称的新数据框的原因是因为我认为这是解决问题的唯一方法,至少是最简单的方法。但是如果有人坚持——我可以从每个 df 上传一些示例数据。 最后我想进行一些概率测试。

如果问题令人困惑,请告诉我。另外,让我知道这是否是一个非常愚蠢的方法:p

解决方法

解决方案:

一旦我意识到我在寻找什么就很容易了:) 可能有更优雅的解决方案。


# pop
pop <- 1:10002985

# noble
n <- c(46851,9956134)
noble <- rep(1:0,n)

# attorney
a <- c(106,46745,9909389)
attorney <- rep(c(1,1,0),a)

final_data <- tibble(pop,noble,attorney)

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。