admin管理员组

文章数量:1130349

资料放在前面:https://blog.csdn/Arnetminer/article/details/105840669

文章的贡献如下:

(1)提出了一个基于最大化MI的理论框架来理解词表示学习模型,并将已知的方法统一到这个框架之中,如skip-gram,masked language modeling(如BERT)和permutation language modeling(如XLNET)。并指出BERT和Skip-gram其实在最大化一个相似的目标式,而他们最大的不同即为所选择的encoder----一个依赖于语境的以一个句子作为输入的Transformer还是一个查表式的嵌入矩阵。

资料放在前面:https://blog.csdn/Arnetminer/article/details/105840669

文章的贡献如下:

(1)提出了一个基于最大化MI的理论框架来理解词表示学习模型,并将已知的方法统一到这个框架之中,如skip-gram,masked language modeling(如BERT)和permutation language modeling(如XLNET)。并指出BERT和Skip-gram其实在最大化一个相似的目标式,而他们最大的不同即为所选择的encoder----一个依赖于语境的以一个句子作为输入的Transformer还是一个查表式的嵌入矩阵。

本文标签: 自然语言论文informationMutualMaximization