.. _ollama_llm_plan:

=========================
Ollama大语言模型选择方案
=========================

.. note::

   本文整理记录gemini推荐方案，待后续实践验证

硬件环境
=========

目前能够7x24小时运行的硬件(考虑家用静音):

- 两块 :ref:`tesla_a2` (安装涡轮风扇散热): 内存 16x2 = 32GB
- 一块 :ref:`tesla_p10` (安装第三方显卡散热风扇): 内存 24GB

方案一：追求智力上限（异构合力模式）
====================================

推荐模型：Llama-3.3-70B-Instruct (Q4_K_S 量化)

这是目前 60GB 左右显存环境下能跑到的“逻辑天花板”。

- 配置方式：将三块显卡联合起来（Total 56GB），运行 4-bit 压缩后的 70B 模型。
- 适用场景：复杂的方案策划、深层次的逻辑推演、跨学科的知识问答。
- 优点：Llama 3.3-70B 的智力完全处于第一梯队，处理“方案分析”时具备极强的系统性思维，不容易出现低级错误。
- 缺点：由于 P10 的算力较弱且三卡之间通过 PCIe 交换数据，出字速度大约在 5-10 tokens/s 左右（略快于人类阅读速度）。

方案二：追求长文本分析（分而治之模式 - 强烈推荐）
======================================================

推荐模型：Qwen3-Next-30B-A3B-Instruct (Q8_0 或 Q6_K)

对于方案分析，往往需要上传几万字的参考资料。此时，2×A2 (32GB) 的组合由于架构更新，更适合处理长上下文。

- 分配策略：

  - 2×A2 (32GB)：运行 Qwen3-Next-30B。由于 A3B 架构（仅激活 3B 参数）和 Ampere 算力加速，它处理长文本的效率极高。你可以利用 32GB 显存，将 num_ctx 开到 64k 甚至 128k。
  - P10 (24GB)：作为备用，运行一个专门的 RAG（检索增强） 向量模型，或者挂载一个专门处理翻译任务的轻量模型。

- 优点：

  - 极速响应：Qwen3-Next 推理飞快，问答体感极佳。
  - 超长胃口：32GB 显存配合 30B 模型，可以让你一次性塞进一整本行业报告或多份技术方案进行对比分析。