微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

电影片名的词嵌入 - Tensorflow Word2Vec Python

如何解决电影片名的词嵌入 - Tensorflow Word2Vec Python

我试图了解词嵌入的工作原理,并且我第一次使用 Word2Vec (Tensorflow)。具体来说,我有一个 txt 文件('movies.txt'),里面有 10 部电影,我用它来了解它是如何工作的

Toy Story (1995)
Jumanji (1995)
Grumpier Old Men (1995)
Waiting to Exhale (1995)
Father of the Bride Part II (1995)
Heat (1995)
Sabrina (1995)
Tom and Huck (1995)
Sudden Death (1995)
GoldenEye (1995)

我正在按照 Tensorflow 页面 (Word2Vec) 上的说明逐步操作。

  1. 导入包。
  2. 设置我的文件路径 (path_to_file = 'movies.txt')
  3. 使用非空行构建 tf.data.TextLineDataset。
  4. 将文本转换为小写并删除标点符号
  5. 定义词汇量和单词数。
  6. 使用文本矢量化层对字符串进行归一化、拆分和映射到整数
  7. 在文本数据集上调用 adapt 来创建词汇表。
  8. 向量化 text_ds 中的数据。

在第 8 步,我收到一个 ValueError:

text_vector_ds = text_ds.batch(1024).prefetch(AUTOTUNE).map(vectorize_layer).unbatch()

ValueError: squeeze_dims[0] not in [-1,1). for '{{node text_vectorization_3/Squeeze}} = Squeeze[T=DT_STRING,squeeze_dims=[1]](text_vectorization_3/StaticRegexReplace)' with input shapes: [?].

我希望您能帮助我了解错误的含义。它与向量维度有关吗?

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。