.. _model_name_means: =================== 大模型命名含义 =================== .. note:: 本文根据gemini文档进行整理,以便能够理解业界的规则 在 `Ollama Models `_ 中可以看到 `Ollama llama3.3 `_ 下各种模型规格的命名,典型的有: ``llama3.3:70b-instruct-q4_K_M`` ================================= - ``instruct`` 表示这个模型是经过 **指令微调 (Instruction Fine-tuned)** 的版本 - **Base模型(基座模型)** : 只学习了“预测下一个词”。如果你给它发“请写一段 Python 代码”,它可能会接着写“这是很多人常问的问题...”,而不是真的去写代码。它更像是一个超级搜索引擎。 - **Instruct模型(指令模型)** : 在基座模型基础上,通过大量的"问题-回答"进行强化训练。它明白自己是一个 **助手** ,当你下令时,它会严格执行指令。 - 结论: 在99% 的对话、编程、办公场景下,你应该 **永远选择** ``instruct`` 版本。 - ``q4_K_M`` - ``q`` 表示Quantized (量化) - ``4`` 表示4-bit(4位)。原始模型通常是16位(FP16)。4-bit意味着将模型参数的精度降低,从而让模型文件体积缩小到原来的1/4左右 - ``K`` 表示 ``K-quant`` ,这是目前主流的高级量化算法,它不是除暴地压缩,而是通过"分组"优化,让模型在压缩的同时尽量少丢"智力" - ``M`` 表示 ``Medium`` (中等),这是一种混合策略:对于模型中比较"聪明"的关键部分,使用高一点的精度;对于不那么重要的部分,使用低一点的精度。与之对应的还有 ``S`` (Small,牺牲精度换更小、更快)和 ``L`` (Large,牺牲体积换更接近原始智力) 例如 ``q4_K_M`` 大约 43GB,则在我的双 :ref:`amd_mi50` 有64GB,则显存还剩 21GB,则剩下的21GB可以全部用来做 **KV Cache(上下文缓存)** ,这样能够分析大量文件,以及大量上下文不至于几个回合就"断片"。 ``qwen3-coder:480b-a35b-q4_K_M`` ====================================== - ``A3B`` - A3B 代表 "Activated 3 Billion"(激活 30 亿参数) - 全量参数 (Total Parameters):模型文件里总共有 480B(4800 亿)参数 - 激活参数 (Active Parameters):由于采用了 超稀疏混合专家(Ultra-Sparse MoE) 架构,当你输入一个词时,模型并不会动用全部 800 亿参数,而是仅激活其中的 3B(30 亿)核心参数进行计算 - 优势: - 速度极快:它的推理速度(TPS)接近于 3B 或 7B 的小模型,但在 4800 亿参数的底蕴下,智力却能达到 70B 以上 Dense 模型的水平 - 显存需求:由于总参数是 480B,你仍然需要足够的显存来装下这 480B 的权重,但在计算时它非常省电且高效