如何解决在有管道和无管道的情况下,在RandomizedSearchCV内应用RFE
我对在带有和不带有管道的gridsearchcv中应用RFE / RFECV有一些疑问。我经历了所有类似的问题,但它们并没有解决我的问题。非常感谢您的支持。
在没有管道的情况下在GridSearch CV中使用RFE的常见方法如下:
grid = {"estimator__max_depth": [3,4],"max_depth": [3,4,5]}
scaler = StandardScaler()
X = scaler.fit_transform(X)
selector = RFE(XGBClassifier(verbosity=0),step=1,n_features_to_select =5)
clf = RandomizedSearchCV(selector,param_distributions=grid,cv=2)
clf.fit(X,y)
class Mypipeline(Pipeline):
@property
def coef_(self):
return self._final_estimator.coef_
@property
def feature_importances_(self):
return self._final_estimator.feature_importances_
estimators = [('scaler',StandardScaler()),('clf',XGBClassifier())]
pipeline = Mypipeline(estimators)
selector = RFE(estimator=pipeline,n_features_to_select =3)
cv = RandomizedSearchCV(selector,cv=2)
cv.fit(X,y)
它只是将Scaler和XGBClassifier传递到管道,然后将其用作RFE步骤的估计器。但是与非流水线方法相比,它返回了不同的结果。可以通过Scaler工作方式的差异来解释(fit_transform在非管道方法中转换所有X和在管道方法中拆分X)。 但是,即使删除了Scaler步骤,结果仍然有所不同。 所以我的第一个问题是我是否以正确的方式应用管道方法?是的,是否有任何理由会导致不同的结果。
还有其他使用管道进行RFE的方法,例如像this post中那样将所有3个步骤都放入管道中:
steps = [('scaler',('selector',RFE(XGBClassifier(verbosity=0),n_features_to_select =5)),('estimator',XGBClassifier())]
pipeline = Pipeline(steps)
cv = RandomizedSearchCV(pipeline,y)
我的第二个问题是:(2.1)在RFE步骤之后再次将XGBClassifier用作'clf'是否正确。和(2.2)对于删除第3步(“ clf”,XGBClassifier())的情况,我如何通过另一种方式在RandomizedSearchCV内部传递“ grid”字典:如何克服'ValueError:无效的参数估计器估计”?
steps = [('scaler',n_features_to_select =5))]
pipeline = Pipeline(steps)
cv = RandomizedSearchCV(pipeline,y)
ValueError: Invalid parameter estimator for estimator Pipeline(steps=[('scaler',RFE(estimator=XGBClassifier(...)
最后,我们可以将RFE和HPO分为两个单独的步骤,如this post中所示, 因此,我的最后一个问题是:在这些方法中,对要采用哪种方法有何评论/建议?
TIA
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。