如何解决一个变量在一个数据集中出现多次的概率
我正在处理一个数据集,其中包含对 YouTube 热门视频的大约 38.000 次观察。一个特定的视频可以有多个观察;这意味着一个视频可以多次流行或流行超过一天。
以上是正确的,这是我们知道的,但我试图弄清楚如何计算在此数据集中多次观察视频的概率。 P(X > 1)
参考我用 barplot(head(table(df$video_id)))
绘制的下图:
我们可以看出,在这 6 个视频中,有 5 个有不止一个观察结果,概率为 83.33%。我怎样才能在整个数据集上找出相同的?虽然我不一定要尝试将其可视化(这将是一个奖励),但我只是好奇如何计算 video_id
在 ~38.000 观察中出现多次的概率。
以下是 20 个观察样本:https://pastebin.com/Tx9ebH2c
解决方法
您拥有大部分所需:
tbl <- table(df$video_id)
p <- sum(tbl > 1)/length(tbl)
p
# [1] 0.5
对于您的样本数据集,一半的视频出现不止一次。表格的长度是不同视频的数量,除以该数量后,您就可以得出不止一次观看的视频比例。您可以绘制一个简单的条形图来显示观看次数超过一次的视频比例与仅观看一次的比例。
barplot(c(p,1-p))
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。