如何解决仅在模型中使用TFRecord的特定功能
当我使用TFrecords和Tensorflow Data模块将数据流传输到模型时,我试图弄清楚如何限制DNN中使用的功能。我猜测这可能是通过过滤数据或更改示例原型来实现的,但我不清楚纯粹基于tensorflow文档,我如何做到这一点。
一些伪代码可以帮助激发我的问题:
files = os.listdir(data_path)
specification = sys.argv[1]
def gen_spec(specify,df):
#Some relevant code here
df <- df.select[only select specific features,as determined by specification argument]
def get_data(files,batch_size = batch_num):
df = tf.data.TFRecordDataset(files,num_parallel_reads = tf.data.experimental.AUTOTUNE,compression_type = "GZIP")
--> df = gen_spec(specification,df)
df = df.batch(batch_size,drop_remainder = True)
return(df)
简而言之,当我将数据流式传输到模型时,这样做的计算效率高的方法是什么?我想我可以为多个规范创建多个TFrecord,但是我的数据集非常大(〜1TB),并且我正在尝试测试70种不同的模型规范。拥有一些主TFrecord,然后将其减少为每个规范所需的变量,将是很棒的。使用数据模块怎么可能?
谢谢, 最高
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。