大模型命名含义
备注
本文根据gemini文档进行整理,以便能够理解业界的规则
在 Ollama Models 中可以看到 Ollama llama3.3 下各种模型规格的命名,典型的有:
llama3.3:70b-instruct-q4_K_M
instruct表示这个模型是经过 指令微调 (Instruction Fine-tuned) 的版本Base模型(基座模型) : 只学习了“预测下一个词”。如果你给它发“请写一段 Python 代码”,它可能会接着写“这是很多人常问的问题...”,而不是真的去写代码。它更像是一个超级搜索引擎。
Instruct模型(指令模型) : 在基座模型基础上,通过大量的"问题-回答"进行强化训练。它明白自己是一个 助手 ,当你下令时,它会严格执行指令。
结论: 在99% 的对话、编程、办公场景下,你应该 永远选择
instruct版本。
q4_K_Mq表示Quantized (量化)4表示4-bit(4位)。原始模型通常是16位(FP16)。4-bit意味着将模型参数的精度降低,从而让模型文件体积缩小到原来的1/4左右K表示K-quant,这是目前主流的高级量化算法,它不是除暴地压缩,而是通过"分组"优化,让模型在压缩的同时尽量少丢"智力"M表示Medium(中等),这是一种混合策略:对于模型中比较"聪明"的关键部分,使用高一点的精度;对于不那么重要的部分,使用低一点的精度。与之对应的还有S(Small,牺牲精度换更小、更快)和L(Large,牺牲体积换更接近原始智力)
例如 q4_K_M 大约 43GB,则在我的双 AMD Radeon Instinct MI50 有64GB,则显存还剩 21GB,则剩下的21GB可以全部用来做 KV Cache(上下文缓存) ,这样能够分析大量文件,以及大量上下文不至于几个回合就"断片"。
qwen3-coder:480b-a35b-q4_K_M
A3BA3B 代表 "Activated 3 Billion"(激活 30 亿参数)
全量参数 (Total Parameters):模型文件里总共有 480B(4800 亿)参数
激活参数 (Active Parameters):由于采用了 超稀疏混合专家(Ultra-Sparse MoE) 架构,当你输入一个词时,模型并不会动用全部 800 亿参数,而是仅激活其中的 3B(30 亿)核心参数进行计算
优势:
速度极快:它的推理速度(TPS)接近于 3B 或 7B 的小模型,但在 4800 亿参数的底蕴下,智力却能达到 70B 以上 Dense 模型的水平
显存需求:由于总参数是 480B,你仍然需要足够的显存来装下这 480B 的权重,但在计算时它非常省电且高效