如何解决如何使用gensim fasttext将tf.data.Dataset用于单词数据集以获取单词嵌入
作为用于减少尺寸的自动编码器的输入管道的一部分,我需要使用gensim fastText将单词转换为其嵌入。
如何使用单词列表加载tf.data.Dataset,然后应用map函数从gensim.fastText中找到嵌入的每个单词。
我尝试过这样的事情:
import tensorflow as tf
from gensim.models.fasttext import FastText
# data -> list of words to train upon
data = tf.data.Dataset.from_tensor_slices((tf.constant(data),tf.constnat(data))
train_data = data.skip(val_size) #val_size is validation size
val_data = data.take(val_size)
def get_embed(word_in,word_ot):
# what to do here?
# I need to get the embeddedings of the word and then reshape them something like this
word_in = fasttext_model.wv[word_in].reshape(shape=(1,embed_dim,1))
word_ot = fasttext_model.wv[word_ot].reshape(shape=(1,1))
return word_in,word_ot # does word_in,word_ot have same value?
train_data = train_data.map(train_data)
val_data = val_data.map(val_data)
如何实现此目标,嵌入尺寸为300。我是tensorflow的新手,正在尝试使用该框架以更好地了解其工作原理。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。