Python Bindings for llama.cpp简介

llama-cpp-python 是基于 llama.cpp 库的Python binding，提供了:

简单来说， llama-cpp-python 通过对 llama.cpp 的Python封装，实现了:

无依赖WEB服务器: 自带基于FastAPI的服务器，可以直接模拟OpenAI的API接口。这样任何支持OpenAI后端的插件(如 VS Code 的Continue,Cursor,Copilot等)都可以无缝切换
极致的硬件控制:
- 异构计算: 可以精确指定多少Layer跑在 AMD Radeon Instinct MI50 ，多少Layer跑在 NVIDIA Tesla A2 GPU运算卡上(通过不同的 n_gpu_layers 参数)
- 内存压缩: 支持GGUF格式的所有量化级别(从Q2_K到Q8_O)，这对于管理显存非常重要
不仅是服务器，也是库: 可以直接在Python脚本中 import llama_cpp ，就像普通函数一样进行推理，而不需要通过HTTP协议绕一圈