微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

如何在我的模型中使用预训练的 bert 模型作为嵌入层?

如何解决如何在我的模型中使用预训练的 bert 模型作为嵌入层?

我在我的功能模型中使用了这个由 bert-for-tf2 预先训练的模型,如下所示:

def build_model(model_dir,batch_size,max_seq_num,max_seq_len):
    bert_params = bert.params_from_pretrained_ckpt(model_dir)
    l_bert = bert.BertModelLayer.from_params(bert_params,name="bert",trainable=False)

    input_ids = tf.keras.layers.Input(shape=(max_seq_num,max_seq_len,),dtype='int32',name='input_ids')
    reshaped_input_ids = tf.reshape(input_ids,(batch_size * max_seq_num,max_seq_len))

    token_type_ids = tf.keras.layers.Input(shape=(max_seq_num,name='token_type')
    reshaped_token_type_ids = tf.reshape(token_type_ids,max_seq_len))

    mask_ids = tf.keras.layers.Input(shape=(max_seq_num,name='mask_ids')
    reshaped_mask_ids = tf.reshape(mask_ids,max_seq_len))

    # provide a custom token_type/segment id as a layer input
    bert_embedd = l_bert([reshaped_input_ids,reshaped_token_type_ids],mask=reshaped_mask_ids)  # [batch_size*max_seq_num,hidden_size]
    model = tf.keras.models.Model(inputs=[input_ids,token_type_ids,mask_ids],outputs=bert_embedd)
    model.build(input_shape=[(batch_size,max_seq_len),(batch_size,max_seq_len)])
    bert.load_bert_weights(l_bert,os.path.join(model_dir,"bert_model.ckpt"))  # should be called after model.build()
    model.summary()
    tf.keras.utils.plot_model(model,show_shapes=True)
    learning_rate = 1e-2
    model.compile(optimizer=tf.keras.optimizers.Adam(learning_rate=learning_rate),loss=tf.keras.losses.MeanSquaredError(),metrics=['mse'])
    return model

我可以成功构建模型。但是当我将数据输入模型时:

model = build_model(path,16,16)
x_input = np.random.randint(0,10000,size=[16,16])
x_token_type = [[[i] * 16 for i in range(16)] for _ in range(16)]
x_mask = np.ones(shape=[16,16])
y_predict = model(x_input,x_token_type,x_mask)

出现错误

ValueError: Layer model expects 2 input(s),but it received 1 input tensors. Inputs received: ...

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其他元素将获得点击?
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。)
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbcDriver发生异常。为什么?
这是用Java进行XML解析的最佳库。
Java的PriorityQueue的内置迭代器不会以任何特定顺序遍历数据结构。为什么?
如何在Java中聆听按键时移动图像。
Java“Program to an interface”。这是什么意思?