如何解决R:`xy.coords(x, y) 中的错误:'x' 和 'y' 长度不同`
我使用的是 R 编程语言。我正在尝试按照本教程中的说明创建回归模型并绘制结果(https://rdrr.io/cran/kernlab/man/gausspr.html):
#load library
library(kernlab)
# create regression data
x <- seq(-20,20,0.1)
y <- sin(x)/x + rnorm(401,sd=0.03)
# regression with gaussian processes
foo <- gausspr(x,y)
foo
# predict and plot
ytest <- predict(foo,x)
plot(x,y,type ="l")
lines(x,ytest,col="red")
#predict and variance
x = c(-4,-3,-2,-1,0.5,1,2)
y = c(-2,-0.5,2,-1)
plot(x,y)
foo2 <- gausspr(x,variance.model = TRUE)
xtest <- seq(-4,0.2)
lines(xtest,predict(foo2,xtest))
lines(xtest,xtest)+2*predict(foo2,xtest,type="sdeviation"),col="red")
lines(xtest,xtest)-2*predict(foo2,col="red")
这很好用,但上面的代码是针对只有两个变量的回归问题。我正在尝试将此代码扩展为具有三个变量的回归问题。下面,我尝试为三个变量(x、y、z:响应变量是 z,预测变量是 x 和 y)重新创建上面的代码:
# create regression data for new problem
x <- seq(-20,sd=0.03)
z <- sin(x)/x + rnorm(401,sd=0.01)
#put into data frame
my_data = data.frame(x,z)
# regression with gaussian processes
foo <- gausspr(z ~.,data = my_data)
foo
# predict and plot (this is where the error is)
ytest <- predict(foo,c(x,y))
#plot
plot(x,col="red")
这会产生以下错误:Error in xy.coords(x,y) : 'x' and 'y' lengths differ
是否有另一种方法可以指定您希望使用“x”和“y”变量进行预测?我想在 R 中,您可以对这样的实例使用 c
命令吗?
ytest <- predict(foo,y))
这阻止我继续前进并在高斯过程 (foo2) 和 xtest 和 ytest 之间制作两个单独的图形,其中显示了置信区间:
foo2 <- gausspr(z ~.,data = my_data,0.2)
ytest <- seq(-4,0.2)
#first plot
lines(xtest,xtest))
lines(xtest,col="red")
lines(xtest,col="red")
#second plot
lines(ytest,ytest))
lines(ytest,ytest)+2*predict(foo2,col="red")
lines(ytest,ytest)-2*predict(foo2,col="red")
有人可以告诉我我做错了什么吗?
谢谢
解决方法
您的代码中有几件事需要考虑;有 NaN
值会导致不同的向量长度,并且您在 newdata
中错误地传递了 predict
。
使用您的数据和模型:
library(kernlab)
x <- seq(-20,20,0.1)
y <- sin(x)/x + rnorm(401,sd=0.03)
z <- sin(x)/x + rnorm(401,sd=0.01)
my_data <- data.frame(x,y,z)
foo <- gausspr(z ~.,data = my_data)
请注意,在此阶段,gausspr
使用了 400 个数据点,而不是 401。
foo
...
学习的训练实例数:400
这是由于 y
和 z
具有自动删除的 NaN
值。由于 NaN
项为 x = 0
,因此它们在 y[x==0]
时为 z[x==0]
(查看运行 sin(x)/x
和 0/0
)。所以这暗示了不同数量的观察可能来自哪里。
接下来您错误地使用了 predict
。来自 ?predict.gausspr
的新数据应该是
包含新数据的数据框或矩阵
但是你传递了一个向量;实际上,您将 x
和 y
连接成一个带有 c(x,y)
的向量。所以改变
ytest <- predict(foo,c(x,y))
到
ytest <- predict(foo,data.frame(x=x,y=y)) # or cbind(x,y)
请注意,有 400 个样本内预测 (length(ytest)
),因为 y
值之一是 NaN
,因此不会为此值生成预测。对于 plot
,x
和 y
的长度必须相同,因此必须删除与麻烦的 x=0
项相关的值。
plot(x,type ="l") # x and y are both length 401
lines(x[x != 0],ytest,col="red") # both length 400
在您问题的下一段代码中还有几个进一步的错误。
如果只有一个预测变量,那么
predict(foo2,xtest)
应该
predict(foo2,data.frame(x=xtest))
但是,由于 y
也在您的模型中,因此您还需要将 y
的一个或一些值传递到 predict
语句中。您需要考虑使用什么值——也许是平均值?
一个稍微简单的工作流程是在开始建模之前准备数据,因为这样可以更好地控制如何处理 NA
/NAN
数据。例如
# remove NA and NaN
my_data <- data.frame(x,z)
model_data <- na.omit(my_data)
# run model and predict
foo <- gausspr(z ~.,data = model_data)
model_data$ytest <- predict(foo,y=y))
# plot
plot(y ~ x,data=model_data,type ="l")
lines(ytest ~ x,col="red")
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。