Task03:模型架构篇&新的模型架构篇

3.1 ?模型之模型概括

3.1.1语?模型的?开始就可以被看做是?个?箱,当前?规模语?模型的能?在于给定?个基于?身需求的prompt就可以?成符合需求的结果。
形式可以表达为:prompt————completion
从数学的?度考虑就对训练数据 (traing data: (x1,...,xL))的概率分布:trianingData——p(x1,...,xL)
3.1.2分词:即如何将?个字符串拆分成多个标记。
3.1.3模型架构:Transformer架构,这是真正实现?型语?模型的建模创新。

3.2分词

1.语?模型 是?个对标记(token)序列的概率分布,其中每个标记来?某个词汇表 :[the,mouse,ate,the,cheese]
2.分词器将任意字符串转换为标记序列:the mouse ate the cheese——{the,mouse,ate,the,cheese}这并不?定是语?建模中最引?注?的部分,但在确定模型的?作效果??起着?常重要的作?。这个?式理解为?然语?和机器语?的?种显式的对?。
3.2.1基于空格的分词
1.解决?案是使?text.split(' ')?式进?分词,这种分词?式对于英?这种按照空格,且每个分词后的单词有语义关系的?本是简单?直接的分词?式。然?,对于?些语?,如中?,句?中的单词之间没有空格:'你吃早饭了嘛';?如德语,存在着?的复合词(例如Abwasserbehandlungsanlange);即使在英语中,也有连字符词(例如father-in-law)和缩略词(例如don't),它们需要被正确拆分。因此,仅仅通过空格来划分单词会带来很多问题。
2.什么样的分词才是好的呢??前从直觉和?程实践的?度来说:
	1.?先我们不希望有太多的标记(极端情况:字符或字节),否则序列会变得难以建模。
	2.其次我们也不希望标记过少,否则单词之间就?法共享参数(例如,mother-in-law和father-in-law应该完全不同吗?),这对于形态丰富的语?尤其是个问题(例如,阿拉伯语、??其语等)。
	3.每个标记应该是?个在语?或统计上有意义的单位。
3.2.2Byte pair encoding
1.将字节对编码(BPE)算法应?于数据压缩领域,?于?成其中?个最常?的分词器。
2.Unicode的问题
3.2.3Unigram model (SentencePiece)
1.种基于?标函数的分词模型可以适应更好分词场景
2.似然值,是根据 unigram 模型计算得出的概率,表示训练数据的似然度。这个值代表了根据 unigram 模型,将训练数据分词为所给的分词结果 的概率。
3.unigram 模型通过统计每个词汇在训练数据中的出现次数来估计其概率。
4.算法流程

3.3模型架构

1.上下?向量表征 (Contextual Embedding): 作为先决条件,主要的关键发展是将标记序列与相应的上下?的向量表征:
3.3.1语?模型分类
1.起源来?于Transformer模型,这个模型是编码-解码端 (Encoder-Decoder)的架构。
2.当前对于语?模型的分类三个类型:编码端(Encoder-Only),解码端(Decoder-Only)和编码-解码端(Encoder-Decoder)。
3.3.1.1编码端(Encoder-Only)架构
1.编码端架构的著名的模型如BERT、RoBERTa等。这些语?模型?成上下?向量表征,但不能直接?于?成?本。
2.该架构的优势是对于?本的上下?信息有更好的理解,因此该模型架构才会多?于理解任务。
3.优点是对于每个xi ,上下?向量表征可以双向地依赖于左侧上下?(x1:i-1)和右侧上下?x(i+1):L。
4.缺点在于不能?然地?成完成?本,且需要更多的特定训练?标(如掩码语?建模)。
3.3.1.2解码器(Decoder-Only)架构
1.解码器架构的著名模型就是?名鼎鼎的GPT系列模型-?回归语?模型。
2.优点为能够?然地?成完成?本,有简单的训练?标(最?似然)。
3.缺点也很明显,对于每个 xi,上下?向量表征只能单向地依赖于左侧上下? (x1:i-1)。
3.3.1.3编码-解码端(Encoder-Decoder)架构
1.编码-解码端架构就是最初的Transformer模型,其他的还有如BART、T5等模型。
2.在某种程度上结合了两者的优点:它们可以使?双向上下?向量表征来处理输?x1:L,并且可以?成输出y1:L。
3.缺点就说需要更多的特定训练?标。

3.4语?模型理论

1.
3.4.1基础架构
1.?先,我们需要将标记序列转换为序列的向量形式。
3.4.2递归神经?络
1.第?个真正的序列模型是递归神经?络(RNN),它是?类模型,包括简单的RNN、LSTM和GRU。
3.4.3Transformer
1.推动?型语?模型发展的序列模型。
3.4.3.1注意?机制
3.4.3.2残差连接和归?化
1.残差连接:计算机视觉中的?个技巧是残差连接(ResNet)。
2.层归?化:另?个技巧是层归?化
3.4.3.3位置嵌?

3.5总结:

1.GPT-3架构,只需将Transformer块堆叠96次即可。

3.6混合专家模型

3.6.1基础知识
3.6.1.1示例:每个专家都是?个线性分类器
3.6.1.2训练:反向传播来学习混合专家模型
3.6.1.3节约计算:,?控函数g(x)=[g1(x),...,gE(x)]对于每个专家都是?零的。
3.6.1.4平衡专家
1.只有所有专家都参与进来,混合专家才有效。
2.如果只有?个专家处于活跃状态(例如,g(x)=[0,1,0,0]),那么这就是浪费。
3.此外,如果我们?直处于这种状态,那么未使?的专家的梯度将为零,因此他们将不会收到任何梯度并得到改善。
4.因此,使?混合专家的主要考虑因素之?是确保所有专家都能被输?使?。
3.6.1.5并?
1.混合专家?常有利于并?。
2.每个专家都可以放置在不同的机器上。
3.我们可以在中?节点计算近似?控函数g(x)。
4.然后,我们只要求包含激活专家的机器(稀疏)来处理x 。
3.6.2Sparsely-gated mixture ofexperts
3.6.2.1符号定义:
3.6.2.2平衡专家
3.6.2.3示例
3.6.3Switch Transformer
3.6.4Balanced Assignment of Sparse Experts (BASE) layers
3.6.4.1实验设置
3.6.4.2总结和下?步?作
3.6.5Generalist Language Model (GLaM) (Du et al. 2021)
3.6.5.1规格:
3.6.5.2其他:
3.6.5.3结果:
3.6.5.4WinoGender上的结果:
3.6.6FacebookMoE (Artetxe et al.,2021)
3.6.6.1实验设置:
3.6.6.2示例:
3.6.7Decentralized mixture-of-experts (Ryabinin & Gusev, 2020)
3.6.7.1动机:
3.6.7.2主要考虑因素:
3.6.7.3分布式哈希表:
3.6.7.4论?实验:
3.6.8Diskin et al., 2021:
3.6.9总结
1.混合专家:起源于将不同专家应?于不同输?的经典理念
2.允许训练更?的语?模型(1.1万亿个参数)
3.与稠密Transformer模型相?,每个输?的效率?得多(FLOP更少)
4.效果难以?较:在相同规模上,直接?较仍然具有挑战性(GPT-3与GLaM与FacebookMoE)
5.对权?下放的重?影响

3.7基于检索的模型

1.基于检索的(或检索增强的、记忆增强的模型),它可以帮助我们突破稠密Transformer的缩放上限。
3.7.1编码器-解码器
3.7.2检索?法
3.7.3 Retrieval-augmented generation (RAG) (Lewis et al., 2020)
3.7.3.1检索器:
3.7.3.2?成器:
3.7.3.3训练:
3.7.3.4实验:
3.7.4RETRO (Borgeaud et al., 2021)
3.7.4.1实验结果
3.7.5讨论
1.基于检索的模型?度适合知识密集型的问答任务。
2.除了可扩展性之外,基于检索的模型还提供了可解释性和更新存储库的能?。
3.?前尚不清楚这些模型是否具有与稠密Transformer相同的通?能?。

3.8总体总结:

1.为了扩?模型规模,需要改进稠密Transformer。
2.混合专家和基于检索的?法相结合更有效。
3.如何设计更好的、可扩展的体系结构仍然是?个悬?未决的问题。