原标题: GPT (Generative Pre-trained Transformer) 是一种基于Transformer架构的语言模型。GPT的参数量取决于多个因素,主要有两个方面:
导读:
1. 模型规模:模型规模越大,参数量越多,GPT以“层”为单位进行计算,每层包含了一个self-attention机制和前馈神经网络(feed-forward neural n...
1. 模型规模:模型规模越大,参数量越多,GPT以“层”为单位进行计算,每层包含了一个self-attention机制和前馈神经网络(feed-forward neural network),较小的GPT可能只有几层,而大规模的版本可以达到数百甚至上千层。
2. 词汇表大小:词汇表大小决定了输入和输出的单词数量,当训练数据中包含更多不同的单词时,需要增加词汇表大小来确保较低频率单词也能得到良好表示。
根据这些因素,GPT全系列版本(从GPT-1到最新的GPT-3)其参数量也会不断增加,例如:
- GPT-1:约1.17亿个参数
- GPT-2:约15亿个参数
- GPT-3:1750亿至3500亿个参数