模型社区
本部分内容告诉你如何选择或者微调量化出功能及大小合适的模型并部署。
开源模型
所谓“开源模型”,通常指公开以下两个核心部分:
- 模型架构(Framework):即网络结构设计,如 Transformer 层堆叠方式、注意力机制等;
- 参数权重(Weights):训练完成后保存的数值,决定模型的实际能力。
早期代表性开源模型如 LLaMA(Meta)、Qwen(通义)、ChatGLM(智谱)等,均完整发布架构代码和权重文件,推动了社区快速发展。这些模型的设计大多基于经典论文《Attention Is All You Need》提出的 Transformer 架构,成为当今绝大多数大模型的技术基石。
模型架构
架构优化
在基础模型之上,各大厂商和研究机构进行了多样化改进:
- 调整网络层数或注意力头数;
- 替换激活函数;
- 优化位置编码;
- 改进训练策略。
每个厂商都有自己的优化想法,由此催生了 Qwen、ChatGLM 等一系列具有各自特色的衍生模型。
以通义千问(Qwen)为例,其经历了从 Qwen → Qwen-2 → Qwen-2.5 → Qwen3 的持续迭代。每一代升级都伴随着架构优化、训练数据扩充、上下文长度提升或推理效率增强,体现了技术的快速演进。