微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

TF-IDF向量与令牌向量

如何解决TF-IDF向量与令牌向量

一些背景:

我将数据构造为形状为(15637,31635)的TFIDF向量,这是该向量到LSTM层的输入。我的词汇表中最长的单词是305个单词,每个TFIDF向量的长度为31635,因为语料库中的总词汇量有很多单词。

每个15637 sentencesTFIDF形式的(31635,)向量。

我使用的是TFIDF,而不是预先训练的embedding层。

No_of_sentences = 15637

BATCH_SIZE = 64

steps_per_epoch = 15637/64 = 244 (with remainder dropped)

vocab_inp_size = 31635. #These were tokens created by Keras tokenizer. and are the distinct words in the input corpus

vocab_tar_size = 4. #This is One-Hot encoding of target value

下面的代码首先创建tensor slices,然后分批tensor slices,最后enumerates每个batch批处理,以给出tuple的形式:{{1} }。

(batch,(input_tensor,target_tensor))

问题:

我没有使用预训练的嵌入层-而是每个句子的TFIDF向量。我没有从输入中删除停用词-因此TFIDF会降低整个语料库中过于频繁的所有词的大小。

比方说,我只使用keras标记程序创建的标记(而不对上面解释的句子使用TFIDF向量)。从理论上讲,这是一个不错的选择。.您怎么看?

注意:31635是语料库的大小(所有句子中单词的总数)。因此,每个句子的长度为31635,但是由于我输入的最长句子约为300个单词,因此大部分都是稀疏的(填充)。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。