大模型架构拆解
权威拆解主流大模型架构,对比国内外开源与闭源模型的技术差异
Transformer基础架构
现代大语言模型大多基于Transformer架构,核心组件包括:
- 注意力机制:计算token间的相关性,实现上下文理解
- 前馈神经网络:每个位置独立处理,增加模型表达能力
- 残差连接:缓解梯度消失,支持深层网络训练
- 层归一化:稳定训练过程,加速收敛
不同大模型在这些基础组件上进行了各种优化和改进,形成了各自的技术特色。
国际开源模型
国际闭源模型
架构组件详细对比
| 模型 | 模型类型 | 层数 | 上下文长度 | 词表大小 | 注意力机制 | 激活函数 | 归一化方法 | 位置编码 |
|---|---|---|---|---|---|---|---|---|
Llama 2 Meta (USA) | Transformer Decoder-only | 32-80 layers | 4096 tokens | 32K tokens | Grouped-Query Attention (GQA) | SwiGLU | RMSNorm | Rotary Position Embedding (RoPE) |
GPT-4 OpenAI (USA) | Transformer Decoder-only | 120+ layers | 32K tokens (GPT-4 Turbo) | Unknown | Multi-head Attention | GELU | LayerNorm | Learned Position Embedding |
Mistral 7B Mistral AI (France) | Transformer Decoder-only | 32 layers | 8K tokens | 32K tokens | Sliding Window Attention + GQA | SwiGLU | RMSNorm | Rotary Position Embedding (RoPE) |
Gemini Google (USA) | Multimodal MoE | Multiple expert layers | 32K tokens | 256K tokens | Multi-head Attention | GEGLU | RMSNorm | RoPE |
ChatGLM-6B 智谱AI (China) | GLM (General Language Model) | 28 layers | 2K tokens | 130K tokens | Multi-head Attention with Prefix LM | GeLU | LayerNorm | Learned Position Embedding |
Qwen-7B 阿里巴巴 (China) | Transformer Decoder-only | 32 layers | 32K tokens | 151K tokens | Multi-head Attention | SwiGLU | RMSNorm | Rotary Position Embedding (RoPE) |
Baichuan-7B 百川智能 (China) | Transformer Decoder-only | 32 layers | 4K tokens | 125K tokens | Multi-head Attention | SwiGLU | RMSNorm | ALiBi (Attention with Linear Biases) |
Yi-6B 零一万物 (China) | Transformer Decoder-only | 32 layers | 4K tokens (Yi-6B), 200K tokens (Yi-34B-200K) | 64K tokens | Multi-head Attention | SwiGLU | RMSNorm | Rotary Position Embedding (RoPE) |
所有架构信息均来自官方技术报告和学术论文,确保权威性和准确性