大模技能雷达

大模型架构拆解

权威拆解主流大模型架构，对比国内外开源与闭源模型的技术差异

Transformer基础架构

现代大语言模型大多基于Transformer架构，核心组件包括：

注意力机制：计算token间的相关性，实现上下文理解
前馈神经网络：每个位置独立处理，增加模型表达能力
残差连接：缓解梯度消失，支持深层网络训练
层归一化：稳定训练过程，加速收敛

不同大模型在这些基础组件上进行了各种优化和改进，形成了各自的技术特色。

国际开源模型

Llama 2

Meta (USA)

开源

关键技术特性：

使用Grouped-Query Attention减少KV缓存内存
SwiGLU激活函数提升性能
RoPE位置编码支持更长上下文

查看技术论文

Mistral 7B

Mistral AI (France)

开源

关键技术特性：

滑动窗口注意力机制
分组查询注意力（GQA）
在多个基准测试中超越更大模型

查看技术论文

国际闭源模型

GPT-4

OpenAI (USA)

闭源

关键技术特性：

多模态能力（GPT-4V）
RLHF优化对齐人类偏好
强大的代码和推理能力

查看技术论文

Gemini

Google (USA)

闭源

关键技术特性：

原生多模态架构
专家混合（MoE）设计
支持文本、图像、音频、视频

查看技术论文

国内开源模型

ChatGLM-6B

智谱AI (China)

开源

关键技术特性：

基于GLM的自回归空白填充
双语（中英）训练
针对中文优化的词表

查看技术论文

Qwen-7B

阿里巴巴 (China)

开源

关键技术特性：

超长上下文支持（32K tokens）
大规模中文预训练
优秀的代码生成能力

查看技术论文

Baichuan-7B

百川智能 (China)

开源

关键技术特性：

使用ALiBi位置编码
无需位置嵌入的外推能力
中英文双语训练

查看技术论文

Yi-6B

零一万物 (China)

开源

关键技术特性：

高质量中英文双语训练
超长上下文版本（200K tokens）
在多个基准测试中表现优异

查看技术论文

架构组件详细对比

模型	模型类型	层数	上下文长度	词表大小	注意力机制	激活函数	归一化方法	位置编码
Llama 2 Meta (USA)	Transformer Decoder-only	32-80 layers	4096 tokens	32K tokens	Grouped-Query Attention (GQA)	SwiGLU	RMSNorm	Rotary Position Embedding (RoPE)
GPT-4 OpenAI (USA)	Transformer Decoder-only	120+ layers	32K tokens (GPT-4 Turbo)	Unknown	Multi-head Attention	GELU	LayerNorm	Learned Position Embedding
Mistral 7B Mistral AI (France)	Transformer Decoder-only	32 layers	8K tokens	32K tokens	Sliding Window Attention + GQA	SwiGLU	RMSNorm	Rotary Position Embedding (RoPE)
Gemini Google (USA)	Multimodal MoE	Multiple expert layers	32K tokens	256K tokens	Multi-head Attention	GEGLU	RMSNorm	RoPE
ChatGLM-6B 智谱AI (China)	GLM (General Language Model)	28 layers	2K tokens	130K tokens	Multi-head Attention with Prefix LM	GeLU	LayerNorm	Learned Position Embedding
Qwen-7B 阿里巴巴 (China)	Transformer Decoder-only	32 layers	32K tokens	151K tokens	Multi-head Attention	SwiGLU	RMSNorm	Rotary Position Embedding (RoPE)
Baichuan-7B 百川智能 (China)	Transformer Decoder-only	32 layers	4K tokens	125K tokens	Multi-head Attention	SwiGLU	RMSNorm	ALiBi (Attention with Linear Biases)
Yi-6B 零一万物 (China)	Transformer Decoder-only	32 layers	4K tokens (Yi-6B), 200K tokens (Yi-34B-200K)	64K tokens	Multi-head Attention	SwiGLU	RMSNorm	Rotary Position Embedding (RoPE)

所有架构信息均来自官方技术报告和学术论文，确保权威性和准确性