如何解决TF-IDF向量与令牌向量
一些背景:
我将数据构造为形状为(15637,31635)
的TFIDF向量,这是该向量到LSTM
层的输入。我的词汇表中最长的单词是305
个单词,每个TFIDF
向量的长度为31635
,因为语料库中的总词汇量有很多单词。
每个15637 sentences
是TFIDF
形式的(31635,)
向量。
我使用的是TFIDF,而不是预先训练的embedding
层。
No_of_sentences = 15637
BATCH_SIZE = 64
steps_per_epoch = 15637/64 = 244 (with remainder dropped)
vocab_inp_size = 31635. #These were tokens created by Keras tokenizer. and are the distinct words in the input corpus
vocab_tar_size = 4. #This is One-Hot encoding of target value
。
下面的代码首先创建tensor slices
,然后分批tensor slices
,最后enumerates
每个batch
批处理,以给出tuple
的形式:{{1} }。
(batch,(input_tensor,target_tensor))
问题:
我没有使用预训练的嵌入层-而是每个句子的TFIDF向量。我没有从输入中删除停用词-因此TFIDF会降低整个语料库中过于频繁的所有词的大小。
比方说,我只使用keras标记程序创建的标记(而不对上面解释的句子使用TFIDF向量)。从理论上讲,这是一个不错的选择。.您怎么看?
注意:31635是语料库的大小(所有句子中单词的总数)。因此,每个句子的长度为31635,但是由于我输入的最长句子约为300个单词,因此大部分都是稀疏的(填充)。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。