大模型命名含义

备注

本文根据gemini文档进行整理，以便能够理解业界的规则

在 Ollama Models 中可以看到 Ollama llama3.3 下各种模型规格的命名，典型的有:

`llama3.3:70b-instruct-q4_K_M`

instruct 表示这个模型是经过 指令微调 (Instruction Fine-tuned) 的版本
- Base模型(基座模型) : 只学习了“预测下一个词”。如果你给它发“请写一段 Python 代码”，它可能会接着写“这是很多人常问的问题...”，而不是真的去写代码。它更像是一个超级搜索引擎。
- Instruct模型(指令模型) : 在基座模型基础上，通过大量的"问题-回答"进行强化训练。它明白自己是一个助手，当你下令时，它会严格执行指令。
- 结论: 在99% 的对话、编程、办公场景下，你应该 永远选择 instruct 版本。
q4_K_M
- q 表示Quantized (量化)
- 4 表示4-bit(4位)。原始模型通常是16位(FP16)。4-bit意味着将模型参数的精度降低，从而让模型文件体积缩小到原来的1/4左右
- K 表示 K-quant ，这是目前主流的高级量化算法，它不是除暴地压缩，而是通过"分组"优化，让模型在压缩的同时尽量少丢"智力"
- M 表示 Medium (中等)，这是一种混合策略：对于模型中比较"聪明"的关键部分，使用高一点的精度；对于不那么重要的部分，使用低一点的精度。与之对应的还有 S (Small，牺牲精度换更小、更快)和 L (Large,牺牲体积换更接近原始智力)

例如 q4_K_M 大约 43GB，则在我的双 AMD Radeon Instinct MI50 有64GB，则显存还剩 21GB，则剩下的21GB可以全部用来做 KV Cache（上下文缓存） ，这样能够分析大量文件，以及大量上下文不至于几个回合就"断片"。

A3B
- A3B 代表 "Activated 3 Billion"（激活 30 亿参数）
- 全量参数 (Total Parameters)：模型文件里总共有 480B（4800 亿）参数
- 激活参数 (Active Parameters)：由于采用了超稀疏混合专家（Ultra-Sparse MoE）架构，当你输入一个词时，模型并不会动用全部 800 亿参数，而是仅激活其中的 3B（30 亿）核心参数进行计算
优势:
- 速度极快：它的推理速度（TPS）接近于 3B 或 7B 的小模型，但在 4800 亿参数的底蕴下，智力却能达到 70B 以上 Dense 模型的水平
- 显存需求：由于总参数是 480B，你仍然需要足够的显存来装下这 480B 的权重，但在计算时它非常省电且高效