对比BERT、OpenAI GPT、ELMo预训练模型架构间差异。

发布时间:2020-09-24 11:00:00
阅读量:85
作者:猎维人工智能培训
推荐系统面试题

差异

1.BERT使用双向变换器,模型的表示在所有层中,共同依赖于左右两侧的上下文。

2.OpenAI GPT使用从左到右的变换器,利用了 Transformer 的编码器作为语言模型进行预训练的,之后特定的自然语言处理任务在其基础上进行微调即可。

3.ELMo使用独立训练的从左到右和从右到左LSTM级联来生成下游任务的特征。是一种双层双向的 LSTM 结构,其训练的语言模型可以学习到句子左右两边的上下文信息,但此处所谓的上下文信息并不是真正意义上的上下文。

4.三种模型中只有BERT表征基于所有层左右两侧语境。

更多资讯