ModelScope

由于Hugging Face下载非常缓慢，虽然使用 HF-Mirror 能够加速，但是如果某些模型认证拒绝(例如我在Hugging Face上注册为China用户，就会拒绝下载 LLaMa(Large Language Model Meta AI) 模型)，即使使用 HF-Mirror 也无法下载。此时就需要换国内的模型网站来下载，例如使用魔搭，也就是使用 modelscope 来下载。

下载

安装 Modelscope:

安装modelscope

pip install modelscope

# 如果报错 ModuleNotFoundError: No module named 'packaging'
pip install packaging

下载 ModelScope: LLM-Research/Llama-3.3-70B-Instruct

下载

modelscope download --model 'LLM-Research/Llama-3.3-70B-Instruct' \
    --local_dir './Llama-3.3-70B-HF' \
    --exclude '*.pth' 'original/*'

# 下载 Llama 3.3 70B Q2_K
modelscope download --model bartowski/Llama-3.3-70B-Instruct-abliterated-GGUF --include "Llama-3.3-70B-Instruct-abliterated-Q2_K.gguf" --local_dir ./Llama-3.3-70B

# 下载 Mistral Small 24B Q8_0
modelscope download --model bartowski/mistralai_Mistral-Small-3.2-24B-Instruct-2506-GGUF --include "mistralai_Mistral-Small-3.2-24B-Instruct-2506-Q8_0.gguf" --local_dir ./Mistral-Small-3.2-24B

# 下载 Qwen3.5-35B-A3B: 注意Qwen3.5是多模态模型，需要下载 .guff 文件配套的 mmproj 文件
# 视觉投影文件，通常文件名包含 mmproj 和 q8_0 或 f16，有线选择f16或q8_0版本，精度更高
modelscope download --model unsloth/Qwen3.5-35B-A3B-GGUF \
   --include "Qwen3.5-35B-A3B-Q4_K_M.gguf mmproj-F16.guff" \
   --local_dir ./Qwen3.5-35B-A3B

# 下载 Qwen3-Coder
modelscope download --model unsloth/Qwen3-Coder-30B-A3B-GGUF \
   Qwen3-Coder-30B-A3B-Q4_K_M.gguf \
   --local_dir ./Qwen3-Coder-30B-A3B

这个下载是并发执行，能够跑满整个带宽，所以下载非常迅速

导入Ollama

编写 Llama3.3.Modelfile :

Modelfile

FROM /root/.ollama/guff/Llama-3.3-70B/Llama-3.3-70B-Instruct-abliterated-Q2_K.gguf
PARAMETER num_gpu 99
PARAMETER num_ctx 4096
SYSTEM "You are a neutral, objective AI assistant providing information based on global perspectives."

编写 Mistral.Modelfile

Modelfile

FROM /root/.ollama/guff/Mistral-Small-3.2-24B/mistralai_Mistral-Small-3.2-24B-Instruct-2506-Q8_0.gguf
PARAMETER num_gpu 99
PARAMETER num_ctx 8192

编写 Qwen3-Coder.Modelfile

Modelfile

# 指向你从 ModelScope 下载的文件
FROM ./Qwen3-Coder-30B-A3B/Qwen3-Coder-30B-A3B-Instruct-Q4_K_M.gguf

# 硬件与性能优化
PARAMETER num_gpu 99
PARAMETER num_ctx 16384
# 降低随机性，代码生成更严谨
PARAMETER temperature 0.2
PARAMETER repeat_penalty 1.1

# 停止符：防止 AI 在生成代码时“停不下来”
PARAMETER stop "<|im_start|>"
PARAMETER stop "<|im_end|>"

# 提示词模板：Qwen3.5/Coder 专用的 ChatML 格式
TEMPLATE """{{ if .System }}<|im_start|>system
{{ .System }}<|im_end|>
{{ end }}{{ if .Prompt }}<|im_start|>user
{{ .Prompt }}<|im_end|>
{{ end }}<|im_start|>assistant
{{ .Response }}<|im_end|>"""

# 默认系统提示词
SYSTEM "你是一位精通 FreeBSD、Linux 内核和 Kubernetes 的高级 SRE 专家。你的代码输出必须简洁、符合规范且包含必要的
  全检查。"

编写 Qwen3.5-35B-A3B.Modelfile

Modelfile

# 指向你下载的 GGUF 文件路径
FROM ./Qwen3.5-35B-A3B/Qwen3.5-35B-A3B-Q4_K_M.gguf

# 包含视觉投影文件
ADAPTER ./Qwen3.5-35B-A3B/mmproj-F16.gguf

# --- 硬件与资源优化参数 ---

# 强制所有模型层进入 GPU (双 A2 会自动平摊)
PARAMETER num_gpu 99

# 设置上下文窗口：针对 32GB 显存，建议初始设为 16384 (16k)
# 若后续处理长视频或大文档需更多空间，可调至 32768
PARAMETER num_ctx 16384

# 针对 A2 显存带宽优化的推理参数
PARAMETER temperature 0.7
PARAMETER top_p 0.8
PARAMETER repeat_penalty 1.1

# --- 多模态与对话模板 ---

# Qwen3.5 专用的 ChatML 模板
TEMPLATE """{{ if .System }}<|im_start|>system
{{ .System }}<|im_end|>
{{ end }}{{ if .Prompt }}<|im_start|>user
{{ .Prompt }}<|im_end|>
{{ end }}<|im_start|>assistant
{{ .Response }}<|im_end|>"""

# 停止词配置
PARAMETER stop "<|im_start|>"
PARAMETER stop "<|im_end|>"

# --- SRE 专家系统提示词 ---
SYSTEM """你是一个部署在私有云环境（双 Tesla A2）中的全能 AI 助手。
你不仅精通 Linux 服务器运维、Kubernetes 架构和 Rust/Go 开发，
还具备强大的多模态理解能力，能够分析用户提供的图片和视频文件。
在提供代码建议时，优先考虑性能优化和安全性。"""

这里的 From 配置必须是Ollama容器内部的路径，我这里采用了在Docker中Ollama使用NVIDIA A2 GPU运行大模型方法，在容器内部

执行导入:

导入模型

# 导入 Llama 3.3
docker exec -it ollama ollama create llama3.3-70b-instruct-q2_k -f /root/.ollama/guff/Llama3.3.Modelfile

# 导入 Mistral Small
docker exec -it ollama ollama create mistral-small3.2-24b-instruct-2506-q8_0 -f /root/.ollama/guff/Mistral.Modelfile

# 导入 Qwen3-Coder
docker exec -it ollama ollama create qwen3-coder-30b-a3b-instruct-q4_k_m -f /root/.ollama/guff/Qwen3-Coder.Modelfile

# 导入 Qwen 3.5
docker exec -it ollama ollama create qwen3.5-35b-a3b-q4_k_m -f /root/.ollama/guff/Qwen3.5-35B-A3B.Modelfile

备注

导入命令 ollama create 只是创建模型索引，实际运行模型需要使用 ollama run