attention-model - 编程之家

技术频道

公众号推荐

微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦！

attention-modelattention-model专题提供attention-model的最新资讯内容，帮你更好的了解attention-model。

keras 中注意力层和 CONV1D 之间的层兼容性

我正在以 bilstm-attention-conv1d 方式构建模型（我想使用具有不同内核大小的多个 conv1d）我面临着注意力层

作者：佚名时间：2022-05-22

将我的输入日期塑造到 keras 模型的问题

这是模型定义： <pre><code>from tensorflow.keras import Model from tensorflow.keras.layers import Bidirectional import tensorfl

作者：佚名时间：2022-05-22

为什么我的教师强制推理功能不起作用？

我正在研究翻译模型。为此，我尝试使用注意力机制实现编码器-解码器模型。我想实施教师强制培训。<

作者：佚名时间：2022-05-19

编码器如何将注意力矩阵传递给 Transformers 中的解码器“注意力就是你所需要的”？

我正在阅读著名的论文<a href="https://arxiv.org/abs/1706.03762" rel="nofollow noreferrer">'Attention is all you need'</a

作者：佚名时间：2022-05-17

TensorFlow 中实现的 Luong Attention 的第二种形式是什么？

官方文档<a href="https://www.tensorflow.org/addons/api_docs/python/tfa/seq2seq/LuongAttention" rel="nofollow noreferrer">here</a>说

作者：佚名时间：2022-05-17

PyTorch中Inplace操作的反向传播误差

<h2>初步</h2> 在我的初步模型中，我使用 RNN Cell 来学习用户嵌入。我将时间 <code>t-1</code> 的嵌入作为 RNN

作者：佚名时间：2022-05-16

使用 BERT 模型检索“相关令牌”已微调

我已经针对分类任务对 BERT 模型（使用 Huggingface 库）进行了微调，以预测两种类型（例如 1 和 0）的帖

作者：佚名时间：2022-05-16

logits 和标签必须具有相同的形状 ((None, None, 8922) vs (None, 8922))

我正在尝试在我的模型中实现 keras SeqSelfAttention 层。我得到了我的模型的摘要，但是当我把它放在火车

作者：佚名时间：2022-05-15

对于 Pytorch 中的 Transformer 网络，tgt 和 src 必须具有相同的特征

我正在尝试通过变压器网络训练 EEG 数据。输入尺寸为 50x16684x60（seq x batch x features），输出为 16684x2。现

作者：佚名时间：2022-05-15

关于 Pytorch seq2seq 教程中注意力计算的问题：discrepancy with original Badahnau or Luong paper

我最近在研究注意力。我有点怀疑他们计算的注意力是 Pytorch NLP 注意力教程：<a href="https://pytorch.org/tutor

作者：佚名时间：2022-05-12

MultiheadAttention 中的 attn_output_weights

我想知道 <code>attn_output_weight</code> 的矩阵是否可以证明输入序列中每个词对之间的关系。在我的项

作者：佚名时间：2022-05-10

keras.models.load_model() 给出错误“ValueError: Got 0 输入方程“baik,baij->bakj”，期待 2”

我的代码将批处理矩阵乘法“tf.einsum('baik,baij->bakj',q, k)/np.sqrt(dv)”作为其中的一部分。在训练模型后，

作者：佚名时间：2022-05-05

使用/指定 attention_mask 使用 Trainer & TrainingArguments 训练 GPT2

我正在使用 Trainer & TrainingArguments 来训练 GPT2 模型，但似乎效果不佳。我的数据集有我的语料库标

作者：佚名时间：2022-05-05

将注意力机制添加到 BERT 隐藏状态以获得单个句子向量

我正在尝试添加一种注意机制，以从 BERT 编码器获得最后隐藏状态的加权平均值，而不仅仅是使用平均

作者：佚名时间：2022-05-09

为什么在获取 MobileNet 的热图时将梯度设为“无”

我在 MobileNet 模型中添加了一个注意力层，如下所示。 <pre><code>mobile = tf.keras.applications.mobilenet.MobileNet

作者：佚名时间：2022-05-09

Keras AdditiveAttention 层的输出形状

尝试使用 <code>AdditiveAttention</code> 中的 <code>Keras</code> 层。关于 tensorflow 教程中层的手动实现 <a href="https:

作者：佚名时间：2022-05-03

我们如何为文本生成和机器翻译微调 HuggingFace Transformer-XL 模型？

我有一种机器翻译任务，我必须将英语句子翻译成 Hinglish 句子。我尝试通过在我的自定义数据集上对其

作者：佚名时间：2022-05-03

深度学习模型准确率高但注意力错误

我使用注意力机制构建了一个可解释的深度学习模型。该模型表现出良好的性能。我检查了

作者：佚名时间：2022-05-02

在 keras 中使用 None 维度的自定义层中添加可训练的权重

我正在尝试实现论文中提到的自定义注意力层 - <a href="https://github.com/xuanjihe/speech-emotion-recognition/blob/maste

作者：佚名时间：2022-05-02

Tensorflow 梯度反向传播与 tf.repeat

<h1>简介</h1> 我正在尝试在 TensorFlow 中实现 <a href="https://www.semanticscholar.org/paper/Set-Transformer%3A-A-Framework-for

作者：佚名时间：2022-05-02

小编推荐

苹果市值2025年有望达4万亿美元