微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

将 SparseAttention 与 DeepSpeed 结合使用时遇到运行时错误

如何解决将 SparseAttention 与 DeepSpeed 结合使用时遇到运行时错误

我正在使用 Transformer 构建自回归模型,但潜在空间有点大。因此,我试图采用稀疏注意力。 我从 this link 借用了 SparseAttention 模块,并使用如下测试代码测试其功能

from sparse_attention import SparseAttention
shape = (2,32,32)
n_head = 2
casual = True
block = 32
num_local_blocks = 4
sparse_model = SparseAttention(shape,n_head,casual)

q = torch.randn(2,2,1,512)
decode_step = None
decode_idx = None
sparse_out = sparse_model(q,q,decode_step,decode_idx)

但是,此计算无法成功,error 如下所示。有人遇到同样的问题吗?顺便说一句,我使用的是PyTorch=1.7,cuda=10.2,并且我已经安装了llvm-9-config。希望有人能帮我解决这个问题!

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。