如何解决在随机森林生存分析中预测测试数据
我正在使用R中的软件包randomForestSRC训练的模型对真实数据同类进行预测。真实数据同类缺少值,而生成该模型的训练集则没有缺失值。
import random
import numpy as np
n = 10000
m = 23
a = np.random.randint(1,365,size=(n,m))
count = 0
for j in range(n):
match = False
for i in range(m):
for k in range(i+1,m):
if a[j][i] == a[j][k]:
count += 1
match = True
break
if match:
break
z = count / n
print("Probability = ",z)
由于同类群组很小(只有8个观察值),因此因素层次的数量少于模型生成的训练集中的因素。我偶然发现,如果我将真实数据队列的级别设置为模型的级别(下面的代码示例),那么我得到的预测答案将与没有得到的答案不同。为什么呢?
pred_cohort <- predict(model,cohort,na.action = "na.impute")
我还意识到,如果我将真实数据的级别设置为模型级别(根据上面的代码),然后我将级别保持不变,则丢失单元格的估算值会有所不同。
问题是,这是否是错误?如果不是,则首选哪种方式?以及为什么更喜欢该选项?
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。