Transformer速查宝典:模子、架构、磨炼措施的论文都在这里了
选自kipply's blog 作者:kipply 机械之心编译 编纂:梓文、查宝措施张倩 论文大合集
,典模的论一篇文章就搞定。架构 AI 睁开快捷 ,磨炼这对于适才入门或者是文都正想跟上「潮水」的内行们来说并不友好。假如有一份详细周全的查宝措施知识列表可能会辅助他们更快走上「正途」 。 明天给巨匠带来一篇 Transformer 的典模的论综述文章,供巨匠清晰 Transformer 的架构下场服从及相关技术。 本篇综述涵盖了 21 种模子 、磨炼11 种架构变更、文都7 种预磨炼后处置技术以及 3 种磨炼技术(尚有 5 种不属于以上技术的查宝措施工具)。模子搜罗 GPT-三
、典模的论GPT-四、架构Gopher、磨炼AlphaCode
、文都RETRO、GPT-3.五、Chinchilla 、Flamingo 等
。一些紧张的架构变更搜罗多查问留意力、浓密留意力
、混合专家等
。同时还介绍了 RLHF 、CAI、Minerva 等预磨炼后处置技术以及超参。所有内容均凭证紧张性以及配合性妨碍排序,并将链接附不才方。 如下为机械之心不修正原义对于文章妨碍编译的内容。 一、模子 如下模子的属性若未清晰剖析,要末未果真
,要末简陋凭证尺度 GPT 配置装备部署。 1.GPT-3 属性:175B 参数 ,96 层,12288 嵌入维度,96 个留意力头 论文地址 :https://arxiv.org/pdf/2005.14165.pdf 宣告概况 Open AI 宣告于 2020 年 5 月 本文是继 GPT-2 论文(2018 及扩展定律论文后,狂语言模子的一片独创性论文。如下是论文中指出无关 GPT-3 的特色
。 它在一个 300B token 的数据集上妨碍磨炼 。该数据集主要由过滤后的 Co妹妹on Crawl 以及一些书籍、收集文本以及维基百科组成; 运用了 BPE tokenizer(与 GPT-2 相同); 2048 高下文长度; 交替运用密集以及浓密留意力层; 在最后的 375M toks 中
,学习率升至 0.6 × 10^-4
,260B toks 后余弦衰减至 10%; 在前 12B 个 token 中,批巨细从 32k toks 回升到 3.2M toks; 4x MLP 投影率
,如 2017 年 Transformer 论文所示; 50k 辞汇表(vocab size)。 以上的良多特色组成为了一种尺度配置装备部署,被其后的模子一再运用。 在论文记实超参数的表 2.1 中有一个可能的拼写过错
,其中 GPT-3 13B 被记作为具备 5140 的嵌入维度
,这里理当是 5120
。 2.GPT-4 陈说地址:https://arxiv.org/pdf/2303.08774.pdf 宣告概况:Open AI 2022 年 8 月对于其实现预磨炼,宣告于 2023 年 3 月。 GPT-4 是 OpenAI 提供的一个模子
,其架构不明(技术上相似于 Transformer) 。技术陈说主要搜罗大部份评估(服从展现精采)
,以及可能从较小模子精确判断出的不断扩展服从。陈说还记实了后退模子清静性的措施,并演示了 GPT-4 的多模态能耐,这种能耐彷佛是用相似于 Flamingo 的方式磨炼的。 3.Gopher 属性:280B 参数,260B 非嵌入参数,80 层
,16384 嵌入维度,128 个留意力头 论文地址:https://arxiv.org/pdf/2112.11446.pdf 宣告概况 :DeepMind 在 2020 年尾对于其妨碍磨炼 ,宣告于 2021 年 12 月。 Gopher 是 DeepMind 在 2021 年宣告的第一个大型语言模子。它运用 RMSNorm 而不是 LayerNorm,运用 Transformer-XL 的相对于位置编码妄想而不是相对于位置编码 ,这便是嵌入参数如斯之多的原因。 它运用 SentencePiece 妨碍分词,辞汇表巨细为 32k,并用 300B token 妨碍磨炼,其中一半来自为 Gopher 群集的 MassiveText ,以及书籍、Co妹妹on Crawl
、维基百科、往事以及 Github 。 4.AlphaCode 属性
:41B 参数,8 个编码器层,56 个解码器层
,6144 嵌入维度 论文地址:https://arxiv.org/pdf/2203.07814.pdf 宣告概况:DeepMind 宣告于 2022 年 2 月 。 AlphaCode 是在 715GB(967B token)代码根基上磨炼进去的模子,可能用于处置编程角逐下场 。它是本文中仅有接管解码器 - 编码器架构的模子。它将编程角逐题视为一项翻译使命(下场陈说 → 处置妄想),以取患上双向性。它在编码器中运用 1536 个 token ,在解码器中运用 768 个 token。运用多查问留意力 ,并在推理时天生数千个样本 ,而后抉择一个处置妄想子集妨碍提交 。 5.RETRO 属性:7B 参数 论文地址:https://arxiv.org/pdf/2112.04426.pdf 宣告概况 :DeepMind 宣告于 2022 年 2 月。 检索是一种通用的技术,即在妨碍推理时提供一个数据库供其查找。RETRO 是第一篇运用 2T token 数据库的 Transformer 检索论文 。它运用预磨炼的 BERT 式模子将 token 数据库嵌入块中 ,而后在磨炼以及推理时期对于数据库中的最隔壁实施分块交织留意力
。 6.GPT-3.5 属性:架构未知 文档地址 https://platform.openai.com/docs/guides/gpt 宣告概况:OpenAI 宣告于 2022 年 3 月
。 OpenAI 将三种模子散漫为 GTP-3.5,详细搜罗 davinci-002 系列中的两种以及 davinci-003 系列中的一种 。其中, code-davinci-002 是根基模子,text-davinci-002 是一个带有 FeedME 非 RL 指令调解的版本。text-davinci-003 是带有 RLHF 的 InstructGPT 。有一篇 InstructGPT 论文磨炼了 RLHF 模子
,但不提到 FeedME
,而 text-davinci-002 尽管是 InstructGPT 模子,但不运用 RLHF。OpenAI API 上的 davinci 模子在 2020 年的论文中被指出是 175B 模子,但从未证实 davinci-002 是否具备相同尺寸。 7.Chinchilla 属性
:70B 参数,80 层 ,8192 嵌入维度 ,64 个留意力头 论文地址
:https://arxiv.org/pdf/2203.15556.pdf 宣告概况
:DeepMind 宣告于 2022 年 3 月
。 Chinchilla 的论文中引入了新的、改善版的 scalling law 。它运用 1.5T token(与 Gopher 相似的数据集)以及与 Gopher 相同的合计量妨碍磨炼
,但功能优于 Gopher。在 scalling law 中
,模子的参数以及 token 数凭证 20:1 的比例线性削减 。学习率接管余弦调解妨碍调解。Megatron Turing NLG 以及 Jurassic J-1 Jumbo 是此外两个大型模子