如何解决R中的Epanechnikov函数等价
我有一个问题,关于是否存在使用Epanechnikov内核作为估计量的等效函数。因此,例如,我有一些代码,其中在r中分别使用“ dnorm”和“ dunif”函数作为普通内核和boxcar内核的内核。基本R中是否存在类似的功能,还是由于我无法找到任何功能而只需要创建一个处理Epanechnikov内核的功能?
我的第二个问题是,对于k(u)= 3/4(1-u ^ 2),Epanechnikov内核的定义是从-1到1,我的函数如何处理任何u值并将其标准化为密度如dnorm和dunif函数?最终,我希望通过一个数据集运行它,以尝试使用带有一些循环语句的常规交叉验证来找到最佳带宽。以下是使用dunif函数的示例代码,
Data=read.table(paste0("http://www.stat.cmu.edu/%7Elarry","/all-of-nonpar/=data/lidar.dat"),header=TRUE)
x=Data$range
y=Data$logratio
n=length(x)
fit=rep(0,n)
L=rep(0,n)
h=seq(1,40,0.1)
nh=length(h)
UniGCV=rep(0,nh)
UniCV=rep(0,nh)
for (k in 1:nh){
for (i in 1:n){
fit[i]=sum(dunif((x[i]-x)/h[k],min=-1,max=1)*y)/ sum(dunif((x[i]-x)/h[k],max=1))
L[i]=dunif(0,max=1)/sum(dunif((x[i]-x)/h[k],max=1))
}
v=sum(L)
UniGCV[k]=sum((y-fit)^2)*n/((n-v)^2)
UniCV[k]=sum((y-fit)^2/(1-L)^2)/n
}
UniGCV
plot(h,UniGCV,type="p",lty=1,col="red")
Unihgcv=h[UniGCV==min(UniGCV)]
min(Unihgcv)
现在,使用此代码,我得到使用统一/棚车内核的通用交叉验证最佳带宽为27。这与我希望使用Epanechnikov内核进行的操作相同。
注意:我已经使用dnorm函数对普通内核进行了此操作,并且我试图避免使用任何必要的软件包。此外,使用UniCv的任何东西现在都可以忽略。
提前谢谢。
解决方法
回到这一点,我设法找到一个为Epanechnikov提供伪代码的源,
KEpa = function(z,h = 1) 3 / (4 * h) * (1 - (z / h)^2) * (abs(z) < h)
调整我得到的代码,
"/all-of-nonpar/=data/lidar.dat"),header=TRUE)
x=Data$range
y=Data$logratio
n=length(x)
fit=rep(0,n)
L=rep(0,n)
h=seq(1,40,0.1)
nh=length(h)
UniGCV=rep(0,nh)
UniCV=rep(0,nh)
KEpa = function(z,h = 1) 3 / (4 * h) * (1 - (z / h)^2) * (abs(z) < h)
for (k in 1:nh){
for (i in 1:n){
ffit[i]=sum(KEpa((x[i]-x)/h[k])*y)/ sum(KEpa((x[i]-x)/h[k]))
L[i]=KEpa(0)/sum(KEpa((x[i]-x)/h[k]))
}
v=sum(L)
UniGCV[k]=sum((y-fit)^2)*n/((n-v)^2)
UniCV[k]=sum((y-fit)^2/(1-L)^2)/n
}
UniGCV
plot(h,UniGCV,type="p",lty=1,col="red")
Unihgcv=h[UniGCV==min(UniGCV)]
min(Unihgcv)
在运行时,我的最佳带宽约为30,这是使用统一内核和所需结果时获得的27的最佳带宽。我确定代码可以优化,但是现在可以使用。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。