微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

TensorFlow:好用的时间序列训练测试集生成器Python

TensorFlow:好用的时间序列训练测试集生成器(Python)


前言

当我们使用TensorFlow框架搭建时间序列训练模型的时候,如何处理时间序列数据,生成训练集和测试集往往是一个不那么重要但是很麻烦的步骤,很多人选择自己写程序,但是有工具干嘛不用?官方教程使用的是timeseries_dataset_from_array,但是这个是适用TensorFlow在2.3或者以上的版本,对于较低版本不兼容,所以选择TimeseriesGenerator更保险一些,虽然功能上较前者稍微差一点,但也不影响。


一、tf.keras.preprocessing.sequence.TimeseriesGenerator介绍

tf.keras.preprocessing.sequence.TimeseriesGenerator(
data, targets, length, sampling_rate=1, stride=1, start_index=0, end_index=None,
shuffle=False, reverse=False, batch_size=128
)

主要参数介绍:
data:需要转换的原始时间序列
targets:需要转换的原始标签
length生成的每段训练、测试时间序列长度
sampling_rate:采样间隔,一段采样中每个中间隔多少
stride:滑动步长
start_index:采样数据从哪个index开始
end_index:采样数据从哪个index结束
shuffle:是否打乱数据顺序
reverse:如果是True,那么会将采样时序倒过来呈现
batch_size:每批次中的时序数据数量

难理解点:sampling_rate和stride的功能区别在哪里?后面通过例子说明。

二、示例展示

代码如下(示例):

data = np.array([[i] for i in range(50)])
targets = np.array([[i] for i in range(50)])

data_gen = tf.keras.preprocessing.sequence.TimeseriesGenerator(data, targets,
                               length=10, sampling_rate=1, stride=1,
                               batch_size=2)
print(data_gen[0])

(array([[[0],
        [1],
        [2],
        [3],
        [4]],

       [[1],
        [2],
        [3],
        [4],
        [5]]]), array([[5],
       [6]]))
print(data_gen[1])

(array([[[2],
        [3],
        [4],
        [5],
        [6]],

       [[3],
        [4],
        [5],
        [6],
        [7]]]), array([[7],
       [8]]))

sampling_rate和stride的功能区别

data_gen = tf.keras.preprocessing.sequence.TimeseriesGenerator(data, targets,
                               length=5, sampling_rate=1, stride=2,
                               batch_size=2)
print(data_gen[0])
(array([[[0],
        [1],
        [2],
        [3],
        [4]],

       [[2],
        [3],
        [4],
        [5],
        [6]]]), array([[5],
       [7]]))
data_gen = tf.keras.preprocessing.sequence.TimeseriesGenerator(data, targets,
                               length=5, sampling_rate=2, stride=1,
                               batch_size=2)
print(data_gen[0])
(array([[[0],
        [2],
        [4]],

       [[1],
        [3],
        [5]]]), array([[5],
       [6]]))

总结

总的来说timeseries_dataset_from_array比TimeseriesGenerator功能更强大,但是TimeseriesGenerator兼容性更强一点,对于不想麻烦调整环境的人来说,还是更倾向于使用TimeseriesGenerator。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐