模型社区
开源模型
所谓“开源模型”,通常指公开以下两个核心部分:
- 模型架构(Framework):即网络结构设计,如 Transformer 层堆叠方式、注意力机制等;
- 参数权重(Weights):训练完成后保存的数值,决定模型的实际能力。
早期代表性开源模型如 LLaMA(Meta)、Qwen(通义)、ChatGLM(智谱)等,均完整发布架构代码和权重文件,推动了社区快速发展。这些模型的设计大多基于经典论文《Attention Is All You Need》提出的 Transformer 架构,成为当今绝大多数大模型的技术基石。
模型架构
架构优化
在基础模型之上,各大厂商和研究机构进行了多样化改进:
- 调整网络层数或注意力头数;
- 替换激活函数;
- 优化位置编码;
- 改进训练策略。
每个厂商都有自己的优化想法,由此催生了 Qwen、ChatGLM 等一系列具有各自特色的衍生模型。
以通义千问(Qwen)为例,其经历了从 Qwen → Qwen-2 → Qwen-2.5 → Qwen3 的持续迭代。每一代升级都伴随着架构优化、训练数据扩充、上下文长度提升或推理效率增强,体现了技术的快速演进。
不同的架构显然是不同的开源模型,大模型抄袭与套皮往往指的就是架构一致。下面的表格列出了头部公司及其主要模型代号:
国内 | 国外 |
---|---|
阿里巴巴: 通义千问 (Qwen)/通义万象(Wan) | 谷歌: Gemini/Veo |
字节跳动: 豆包 (coze)/即梦(Seedream) | OpenAI: GPT/Sora |
深度求索: DeepSeek | Anthropic: Claude |
智谱: 智谱清言 (GLM) | xAI: Grok |
腾讯: 混元 (Hunyuan) | Meta: Llama |
参数权重
参数多少
模型的参数量是影响性能的关键因素之一,常见规格包括:7B(70亿)、14B(140亿 )、72B(720亿)等。
一般来说:参数越大,语言理解与生成能力越强,但对算力、显存要求也更高;参数越小,推理速度快、部署门槛低,适合端侧或边缘设备。
因此,厂商常发布同一架构下的多个参数版本,如 Qwen3-7B、Qwen3-14B、Qwen3-72B,满足不同场景需求。
info
随着大模型走向商业化闭源,部分厂商开始淡化甚至隐藏具体参数信息,转而采用更具用户体验导向的命名方式。
- Qwen3-14B 可能对应名称为 Qwen3-Fast
- Qwen3-72B 可能对应名称为 Qwen3-High
权重大小
在预训练模型基础上,将权重大小使用特定领域数据进行进一步训练调整,称为微调(fine-tuning),用于提升模型在某类任务上的表现。微调后的模型也算一个新的开源模型。
- 全量微调(Full Fine-tuning):更新全部参数,适合有大量高质量数据的场景;
- LoRA 微调(Low-Rank Adaptation):仅训练低秩矩阵,冻结主干权重,显著降低计算开销。
通过微调,可得到面向特定任务的专用模型,例如:
- Qwen3-Coder:擅长代码生成;
- Qwen3-Math:专精数学推理