VS Code插件Continue连接Ollama实现AI辅助编程

Continue 插件为 VS Code 提供了直接使用OpenAI作为AI编码后端的能力，同时也可以连接本地部署的大语言模型，实现完全自主控制的LLM大模型编程。

我在 Ollama使用AMD GPU运行大模型验证运行了 Qwen2.5-coder 之后，尝试结合到 VS Code 进行AI编程:

Continue 提供了 chat 模式对话，以及自动补全和代码自动注释等功能，使用方便，无需频繁切换终端

硬件环境和规划

2026年初，我剁手了两块 NVIDIA Tesla A2 GPU运算卡，此外在2025年剁手的 AMD Radeon Instinct MI50 以及更早的 Nvidia Tesla P10 GPU运算卡，形成了混合架构的GPU硬件。由于 NVIDIA Tesla A2 GPU运算卡功耗极低，我准备在淘宝上购买涡轮静音风扇组装到我的台式机上，实现7x24小时持续运行的推理平台。另外也改造了 Nvidia Tesla P10 GPU运算卡增加了显卡散热风扇，一并安装到台式机上:

双 NVIDIA Tesla A2 GPU运算卡合计有32GB显存，Ampere架构，具备了第二代 Tensor Core，比 Nvidia Tesla P10 GPU运算卡先进了两个代际
Nvidia Tesla P10 GPU运算卡 24GB显存，Pascal架构，没有Tensor Core

规划通过安装 NVIDIA Container Toolkit 构建2个不同的容器构建"双引擎"AI工作站:

qwen2.5-coder:32b-instruct-q4_K_M 需要20GB显存，对于双 NVIDIA Tesla A2 GPU运算卡 (合计32GB)还能有12GB显存用于KV cache的上下文，支持约 16,384 到 24,576 tokens 的上下文长度（取决于是否开启了 GQA 优化），这样对于代码逻辑和架构设计会非常均衡
- 负载均衡：Ollama 会自动将模型的 64 层（Layers）平均分配到两块 A2 上，每块卡负担约 32 层。这样每块卡的显存占用都在 14GB - 15GB 左右，处于非常健康的区间
- 算力对齐：两块A2卡并行的总核心数（CUDA Cores）能让 32B 模型的推理速度维持在 10 - 15 tokens/s 左右。对于代码生成来说，这已经非常流畅（每秒能写 20-30 行代码）。
Nvidia Tesla P10 GPU运算卡相对性能较弱，不过内存有24GB是一个优势，考虑后续尝试作为项目代码分析(可能会比较慢)

安装和配置

在 VS Code中选择插件市场，搜索 continue 并安装

打开VS Code，按下 Ctrl+Shift+P ，然后输入 Continue: Open Settings
这里有一个界面是登陆 Coninue Hub ，不过也提供了另外一个选项是 Or, configure your own models ，我们就选择这个配置自己的模型
- 选择本地运行模型
- 跳过导引，选择直接编辑配置，然后参考 Continue model providers 配置文件配置，我这里再次配置选择 Ollama使用AMD GPU运行大模型实践过 Qwen2.5-coder ，就不需要重复下载新模型，而且也是目前我的硬件能够运行的最好的编码模型

备注

上述配置其实有点迷糊，可能需要摸索摸索。我自己也是按照导引做的，但是看起来continue的界面迭代变化块，和文档并不相同，所以我也就在这里不再记录了。

使用

Continue 提供了一个chat模式，就好像直接和Ollama对话

../../../_images/vscode_continue_ollama.png — 对话模式通过提示获取代码片段

其实使用chat模式就很方便，通过简单对话就能获取代码片段进行参考，也方便学习编程
代码注释比较有用，特别是看到一时无法理解的代码，让 continue 调用 Ollama 帮我解析，可以快速完成代码阅读

其他功能探索中...

参考