使用 cleanlab 和 sktime 对带有噪声标签的时间序列进行分类

如何解决使用 cleanlab 和 sktime 对带有噪声标签的时间序列进行分类

所以我想使用 cleanlab 改进 may sktime 分类器。以下是一些示例数据

x=np.linspace(0,3,500)
X_true=np.array([randint(1,10)*np.sin(x) for _ in range(100)])
X_false=np.array([randint(1,10)*np.tan(x) for i in range(100)])
y=[True for _ in range (100)]+[False for _ in range (100)]
df=pd.concat([pd.DataFrame(X_true),pd.DataFrame(X_false)])
df['y']=y
df = df.sample(frac=1).reset_index(drop=True)
X=df.drop('y',axis=1).to_numpy()
y=df['y'].to_numpy()

这将为带有标签 True 的 sin 函数和带有标签 False 的 tan 函数创建时间序列数据集。为了创建一些标签错误,我们将前 20 个目标设置为 True

y[:20]=True

现在我使用 sktime 分类器来查找每个时间序列的标签效果很好

>>> X=from_2d_array_to_nested(X)
>>> clf=TimeSeriesForestClassifier(n_jobs=-1).fit(X,y)
>>> clf.score(X,y)
0.95

但是,我想使用 cleanlab通知分类器他的一些训练标签可能不正确

>>> LearningWithNoisyLabels(clf=TimeSeriesForestClassifier()).fit(X,y)

但这会导致 KeyError

KeyError: "None of [Int64Index([  1,2,4,5,6,7,11,13,15,17,\n            ...\n            186,187,188,190,191,192,194,196,198,199],\n           dtype='int64',length=160)] are in the [columns]"

由于 LearningWithNoisyLabels 正在为我与其他分类器一起工作,我猜 sktime 分类器有问题,但我不确定

版本信息:

>>> cleanlab.__version__,sktime.__version__
('0.1.1','0.5.3')

进口:

>>> from cleanlab.classification import LearningWithNoisyLabels
>>> from sktime.utils.data_processing import from_2d_array_to_nested
>>> from sktime.classification.all import TimeSeriesForestClassifier

解决方法

问题是在 LearningWithNoisyLabels(..).fit() 期间,函数 cleanlab.latent_estiamtion.estimate_confident_joint_and_cv_pred_proba 抛出异常,因为它没有正确处理 sktime 功能格式。 from_2d_array_to_nested() 的结果是一个 pd.DataFrame,每个单元格中有 1 列和一个 pd.Series

但是,如果我们在以普通 TimeSeriesForestClassifier 作为输入的管道中定义 np.array,一切正常。

from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import FunctionTransformer

clf=make_pipeline(FunctionTransformer(from_2d_array_to_nested),TimeSeriesForestClassifier())
clf_clean=LearningWithNoisyLabels(clf)
clf_clean.fit(X,y)

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其他元素将获得点击?
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。)
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbcDriver发生异常。为什么?
这是用Java进行XML解析的最佳库。
Java的PriorityQueue的内置迭代器不会以任何特定顺序遍历数据结构。为什么?
如何在Java中聆听按键时移动图像。
Java“Program to an interface”。这是什么意思?
Java在半透明框架/面板/组件上重新绘画。
Java“ Class.forName()”和“ Class.forName()。newInstance()”之间有什么区别?
在此环境中不提供编译器。也许是在JRE而不是JDK上运行?
Java用相同的方法在一个类中实现两个接口。哪种接口方法被覆盖?
Java 什么是Runtime.getRuntime()。totalMemory()和freeMemory()?
java.library.path中的java.lang.UnsatisfiedLinkError否*****。dll
JavaFX“位置是必需的。” 即使在同一包装中
Java 导入两个具有相同名称的类。怎么处理?
Java 是否应该在HttpServletResponse.getOutputStream()/。getWriter()上调用.close()?
Java RegEx元字符(。)和普通点?