微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

如何嵌入 N-gram

如何解决如何嵌入 N-gram

为了改进我的模型,我使用基于字符的 3-Gram 而不是单词 :) 代码片段如下:


def MakeNGram(sent_list,N,vocab_size,seq_size):
    NGramList = []

    for sent in sent_list:
        # ---------------------------- حذف فاصله ----------------------------
        sent = sent.replace(" ","")
        # ------------------------- استخراج ان تایی ها --------------------------
        NGram = [sent[i:i + N] for i in range(len(sent) - N + 1)]
        # ----------------------- تبدیل به ان تایی با فاصله ------------------------
        new_string = " ".join(NGram)
        # ------------------------- رمزگذاری وان هات --------------------------
        OneHot = one_hot(new_string,round(vocab_size * 1.3))
        # --------------------------- padding ------------------------------
        HotLen = len(OneHot)
        if HotLen >= seq_size:
            OneHot = OneHot[0:seq_size]
        else:
            diff = seq_size - HotLen
            extra = [0] * diff
            OneHot = OneHot + extra
        NGramList.append(OneHot)
    NGramArray = np.array(NGramList)
    return NGramArray


到这里没有问题,但我想在没有 onehot 的情况下对 N-gram 进行矢量化,当然我的语言(波斯语)没有 Ngram2vec 模型,所以请帮我更改代码为 Ngrams 提供最佳嵌入功能 :)
注意:我使用了 keras 嵌入,但有很多问题,我认为在用 onehot 替换 keras 嵌入时出错了...
适用于可变语言的最佳方式是什么?

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。