如何嵌入 N-gram - 编程之家

如何解决如何嵌入 N-gram

为了改进我的模型，我使用基于字符的 3-Gram 而不是单词 :) 代码片段如下：


def MakeNGram(sent_list,N,vocab_size,seq_size):
    NGramList = []

    for sent in sent_list:
        # ---------------------------- حذف فاصله ----------------------------
        sent = sent.replace(" ","")
        # ------------------------- استخراج ان تایی ها --------------------------
        NGram = [sent[i:i + N] for i in range(len(sent) - N + 1)]
        # ----------------------- تبدیل به ان تایی با فاصله ------------------------
        new_string = " ".join(NGram)
        # ------------------------- رمزگذاری وان هات --------------------------
        OneHot = one_hot(new_string,round(vocab_size * 1.3))
        # --------------------------- padding ------------------------------
        HotLen = len(OneHot)
        if HotLen >= seq_size:
            OneHot = OneHot[0:seq_size]
        else:
            diff = seq_size - HotLen
            extra = [0] * diff
            OneHot = OneHot + extra
        NGramList.append(OneHot)
    NGramArray = np.array(NGramList)
    return NGramArray

到这里没有问题，但我想在没有 onehot 的情况下对 N-gram 进行矢量化，当然我的语言（波斯语）没有 Ngram2vec 模型，所以请帮我更改代码为 Ngrams 提供最佳嵌入功能 :)
注意：我使用了 keras 嵌入，但有很多问题，我认为在用 onehot 替换 keras 嵌入时出错了...
适用于可变语言的最佳方式是什么？