ModelScope
由于Hugging Face下载非常缓慢,虽然使用 HF-Mirror 能够加速,但是如果某些模型认证拒绝(例如我在Hugging Face上注册为China用户,就会拒绝下载 LLaMa(Large Language Model Meta AI) 模型),即使使用 HF-Mirror 也无法下载。此时就需要换国内的模型网站来下载,例如使用魔搭,也就是使用 modelscope 来下载。
下载
安装 Modelscope:
安装modelscope
pip install modelscope
# 如果报错 ModuleNotFoundError: No module named 'packaging'
pip install packaging
下载
modelscope download --model 'LLM-Research/Llama-3.3-70B-Instruct' \
--local_dir './Llama-3.3-70B-HF' \
--exclude '*.pth' 'original/*'
# 下载 Llama 3.3 70B Q2_K
modelscope download --model bartowski/Llama-3.3-70B-Instruct-abliterated-GGUF --include "Llama-3.3-70B-Instruct-abliterated-Q2_K.gguf" --local_dir ./Llama-3.3-70B
# 下载 Mistral Small 24B Q8_0
modelscope download --model bartowski/mistralai_Mistral-Small-3.2-24B-Instruct-2506-GGUF --include "mistralai_Mistral-Small-3.2-24B-Instruct-2506-Q8_0.gguf" --local_dir ./Mistral-Small-3.2-24B
# 下载 Qwen3.5-35B-A3B: 注意Qwen3.5是多模态模型,需要下载 .guff 文件配套的 mmproj 文件
# 视觉投影文件,通常文件名包含 mmproj 和 q8_0 或 f16,有线选择f16或q8_0版本,精度更高
modelscope download --model unsloth/Qwen3.5-35B-A3B-GGUF \
--include "Qwen3.5-35B-A3B-Q4_K_M.gguf mmproj-F16.guff" \
--local_dir ./Qwen3.5-35B-A3B
# 下载 Qwen3-Coder
modelscope download --model unsloth/Qwen3-Coder-30B-A3B-GGUF \
Qwen3-Coder-30B-A3B-Q4_K_M.gguf \
--local_dir ./Qwen3-Coder-30B-A3B
这个下载是并发执行,能够跑满整个带宽,所以下载非常迅速
导入Ollama
编写
Llama3.3.Modelfile:
Modelfile
FROM /root/.ollama/guff/Llama-3.3-70B/Llama-3.3-70B-Instruct-abliterated-Q2_K.gguf
PARAMETER num_gpu 99
PARAMETER num_ctx 4096
SYSTEM "You are a neutral, objective AI assistant providing information based on global perspectives."
编写
Mistral.Modelfile
Modelfile
FROM /root/.ollama/guff/Mistral-Small-3.2-24B/mistralai_Mistral-Small-3.2-24B-Instruct-2506-Q8_0.gguf
PARAMETER num_gpu 99
PARAMETER num_ctx 8192
编写
Qwen3-Coder.Modelfile
Modelfile
# 指向你从 ModelScope 下载的文件
FROM ./Qwen3-Coder-30B-A3B/Qwen3-Coder-30B-A3B-Instruct-Q4_K_M.gguf
# 硬件与性能优化
PARAMETER num_gpu 99
PARAMETER num_ctx 16384
# 降低随机性,代码生成更严谨
PARAMETER temperature 0.2
PARAMETER repeat_penalty 1.1
# 停止符:防止 AI 在生成代码时“停不下来”
PARAMETER stop "<|im_start|>"
PARAMETER stop "<|im_end|>"
# 提示词模板:Qwen3.5/Coder 专用的 ChatML 格式
TEMPLATE """{{ if .System }}<|im_start|>system
{{ .System }}<|im_end|>
{{ end }}{{ if .Prompt }}<|im_start|>user
{{ .Prompt }}<|im_end|>
{{ end }}<|im_start|>assistant
{{ .Response }}<|im_end|>"""
# 默认系统提示词
SYSTEM "你是一位精通 FreeBSD、Linux 内核和 Kubernetes 的高级 SRE 专家。你的代码输出必须简洁、符合规范且包含必要的
全检查。"
编写
Qwen3.5-35B-A3B.Modelfile
Modelfile
# 指向你下载的 GGUF 文件路径
FROM ./Qwen3.5-35B-A3B/Qwen3.5-35B-A3B-Q4_K_M.gguf
# 包含视觉投影文件
ADAPTER ./Qwen3.5-35B-A3B/mmproj-F16.gguf
# --- 硬件与资源优化参数 ---
# 强制所有模型层进入 GPU (双 A2 会自动平摊)
PARAMETER num_gpu 99
# 设置上下文窗口:针对 32GB 显存,建议初始设为 16384 (16k)
# 若后续处理长视频或大文档需更多空间,可调至 32768
PARAMETER num_ctx 16384
# 针对 A2 显存带宽优化的推理参数
PARAMETER temperature 0.7
PARAMETER top_p 0.8
PARAMETER repeat_penalty 1.1
# --- 多模态与对话模板 ---
# Qwen3.5 专用的 ChatML 模板
TEMPLATE """{{ if .System }}<|im_start|>system
{{ .System }}<|im_end|>
{{ end }}{{ if .Prompt }}<|im_start|>user
{{ .Prompt }}<|im_end|>
{{ end }}<|im_start|>assistant
{{ .Response }}<|im_end|>"""
# 停止词配置
PARAMETER stop "<|im_start|>"
PARAMETER stop "<|im_end|>"
# --- SRE 专家系统提示词 ---
SYSTEM """你是一个部署在私有云环境(双 Tesla A2)中的全能 AI 助手。
你不仅精通 Linux 服务器运维、Kubernetes 架构和 Rust/Go 开发,
还具备强大的多模态理解能力,能够分析用户提供的图片和视频文件。
在提供代码建议时,优先考虑性能优化和安全性。"""
这里的 From 配置必须是Ollama容器内部的路径,我这里采用了 在Docker中Ollama使用NVIDIA A2 GPU运行大模型 方法,在容器内部
执行导入:
导入模型
# 导入 Llama 3.3
docker exec -it ollama ollama create llama3.3-70b-instruct-q2_k -f /root/.ollama/guff/Llama3.3.Modelfile
# 导入 Mistral Small
docker exec -it ollama ollama create mistral-small3.2-24b-instruct-2506-q8_0 -f /root/.ollama/guff/Mistral.Modelfile
# 导入 Qwen3-Coder
docker exec -it ollama ollama create qwen3-coder-30b-a3b-instruct-q4_k_m -f /root/.ollama/guff/Qwen3-Coder.Modelfile
# 导入 Qwen 3.5
docker exec -it ollama ollama create qwen3.5-35b-a3b-q4_k_m -f /root/.ollama/guff/Qwen3.5-35B-A3B.Modelfile
备注
导入命令 ollama create 只是创建模型索引,实际运行模型需要使用 ollama run