如何解决在训练自定义BERT模型时,create_pretraining_data.py将0条记录写入tf_examples.tfrecord
我正在自己的语料库上编写自定义BERT模型,我使用BertWordPiecetokenizer生成了vocab文件,然后在以下代码下运行
//pointer to pointer to char,has no access to any memory
char **mptr;
//allocates memory for 10 pointers to char
mptr = calloc(10,sizeof(char*));
//allocates memory for each of the 10 mptr[i] pointers to point to
for (i = 0; i < 10; i++)
{
mptr[i] = malloc(10); //no cast needed,#include <stdlib.h>
}
!python create_pretraining_data.py
--input_file=/content/drive/My Drive/internet_archive_scifi_v3.txt
--output_file=/content/sample_data/tf_examples.tfrecord
--vocab_file=/content/sample_data/sifi_13sep-vocab.txt
--do_lower_case=True
--max_seq_length=128
--max_predictions_per_seq=20
--masked_lm_prob=0.15
--random_seed=12345
--dupe_factor=5
INFO:tensorflow:*** Reading from input files ***
INFO:tensorflow:*** Writing to output files ***
INFO:tensorflow: /content/sample_data/tf_examples.tfrecord
不确定为什么我总是在INFO:tensorflow:Wrote 0 total instances
中获得0个实例,我在做错什么吗?
我正在使用tf_examples.tfrecord
FYI ..生成的vocab文件为290 KB。
解决方法
无法读取输入文件,请使用“My\ Drive”代替“My Drive”
--input_file=/content/drive/My\ Drive/internet_archive_scifi_v3.txt
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。