(1)介绍dropout,为什么可以起到防止过拟合的作用
答 : Dropout是什么?为什么Dropout可以防止过拟合?
(2). 使用的模型的计算量,Flops
(3)共享参数,为什么可以提升效果(起到正则化的作用)
(4)LSTM和transformer的各自的优缺点,以及复杂度分析
(5)BN层和LN层的区别,为什么自然语言处理里面用LN层
关于batch normalization和layer normalization的理解
(6)有什么神经网络的语言模型,不用dropout的结果更好(Albert)
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。