微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

使用/指定 attention_mask 使用 Trainer & TrainingArguments 训练 GPT2

如何解决使用/指定 attention_mask 使用 Trainer & TrainingArguments 训练 GPT2

我正在使用 Trainer & TrainingArguments 来训练 GPT2 模型,但似乎效果不佳。

我的数据集有我的语料库标记的 id 和每个文本的掩码,以指示在哪里应用注意力:

Dataset({
features: ['attention_mask','input_ids','labels'],num_rows: 2012860
}))

我正在使用 Trainer & TrainingArguments 进行训练,按如下方式传递我的模型和我之前的数据集。但是我没有指定关于 attention_mask 的任何内容

training_args = TrainingArguments(
output_dir=path_save_checkpoints,overwrite_output_dir=True,num_train_epochs=1,per_device_train_batch_size = 4,gradient_accumulation_steps = 4,logging_steps = 5_000,save_steps=5_000,fp16=True,deepspeed="ds_config.json",remove_unused_columns = True,debug = True
)

trainer = Trainer(
model=model,args=training_args,data_collator=data_collator,train_dataset=dataset,tokenizer=tokenizer,)

trainer.train()

我应该如何告诉训练师使用这个功能(attention_mask)? 如果您查看文件 /transformers/trainer.py,则没有提及“注意”或“面具”。

提前致谢!

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。