首发于 HuggingYou
HuggingFace | 在HuggingFace中有哪几类模型?

HuggingFace | 在HuggingFace中有哪几类模型?

前言

如果你不了解原始的Transformer模型,那么请查看论文: [1706.03762] Attention Is All You Need (arxiv.org)

当然这里有一份可以对照代码来解读原始Transformer模型的参考: The Annotated Transformer (harvard.edu)

在Hugging Face中,所有的模型都在这里: Hugging Face – On a mission to solve NLP, one commit at a time.

以及模型的配置可以在这里查看: Pretrained models — transformers 4.0.0 documentation (huggingface.co)


类别

所有在Hugging Face中的模型都属于下面的其中一类:

简单介绍一下:

  • Autoregressive models(自回归模型)在标准语言建模任务上进行了预训练:即在已读取所有先前token的基础上,预测下一个token。通俗理解为从左向右读取序列。它们对应于原始transformer model的decoder,虽然可以对这些模型进行微调并在许多任务上取得出色的结果,但这一类模型最佳的应用是文本生成,因为其训练方式与文本生成的方式都是从左向右。这种模型的典型示例是GPT;
  • Autoencoding models(自编码模型)是通过以某种方式破坏输入的token并尝试在预训练的时候重建原始序列。从某种意义上讲,它们与原始transformer model的encoder相对应,因为它们可以在输入的时候查看整段序列。虽然可以对它们进行微调并在许多任务(例如文本生成)上取得出色的结果,但这一类模型最佳的应用是序列分类或token分类。此类模型的典型示例是BERT;
  • Sequence-to-sequence models(序列到序列模型)希望将所有NLP任务都转换到sequence-to-sequence问题。可以将它们微调成许多任务,但最佳的应用是翻译,摘要和阅读理解。原始transformer模型是此类模型的一个示例(仅用于翻译)。此类模型的典型示例是T5;
  • Multimodal models(多任务模型)将文本输入与其他类型的输入(例如图像)混合在一起,并且更特定于给定任务;
  • Retrieval-based models笔者暂不了解。

他们的典型代表

这里简单介绍一下每一类模型的典型代表是哪些。


Autoregressive models(自回归模型)

Original GPT:

GPT-2:

CTRL:

Transformer-XL:

======================================================

Autoencoding models(自编码模型)

BERT:

RoBERTa:

DistilBERT:

======================================================

Sequence-to-sequence models(序列到序列模型)

BART:

T5:

======================================================

Multimodal models(多任务模型)

MMBT:

发布于 2020-12-04 15:33

文章被以下专栏收录