这几天尝试在本地部署模型(WSL2(ubuntu 24.04)+20G VRAM),用在iflow cli上。终于跑通了。
优选的GLM-4.7-Flash-Q4KM,用的llama.cpp。自己在本地编译的。
本地部署
其实编译都比较简单,跑起来也还行。
下面贴一下我和模型的对话。
llama.cpp的一键编译脚本:
注意:下面是适配我的显卡,你需要根据自己的选择修改-DGGML_CUDA_ARCHITECTURES=120的值
cuda环境已经可用的话,可以跳过cuda环境配置。
#!/bin/bash
set -e
# 安装依赖
sudo apt update
sudo apt install -y build-essential cmake git cuda-toolkit-12-8
# 配置环境
export PATH=/usr/local/cuda-12.8/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda-12.8/lib64:$LD_LIBRARY_PATH
# 编译 llama.cpp
git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp
mkdir -p build && cd build
cmake .. -DGGML_CUDA=ON -DGGML_CUDA_ARCHITECTURES=120 -DCMAKE_BUILD_TYPE=Release
cmake --build . --config Release -j$(nproc)
echo "编译完成!二进制文件位于: $(pwd)/bin/"
编译之后,就有llama-server了,检查一下:
# 检查 CUDA 支持
./bin/llama-cli --version
启动脚本:
#!/bin/bash
./llama.cpp/build/bin/llama-server \
--model /gguf-files/GLM-4.7-Flash-Q4_K_M.gguf \
--alias "GLM-47-Flash" \
--seed 3407 \
--temp 0.7 \
--top-p 1.0 \
--min-p 0.01 \
--repeat-penalty 1.0 \
--ctx-size 16384 \
--host 0.0.0.0 \
--port 6006
访问地址:
网页对话: http://localhost:6006
API: http://localhost:6006/v1/
配置iflow cli
启动iflow(可以在windows上使用,只要能访问到服务就可以)。
输入
/auth
输入api地址:
http://localhost:6006/v1
输入秘钥(本地,随便输入):
sk-xxxxxx
输入模型名称(启动脚本中,alias的值):
GLM-47-Flash
回车,即可开始对话。
使用感受
整体感觉,GLM-47-Flash-Q4KM效果还行,就是20G VRAM有点小(还是太穷了…)。
导致推理速度有点慢。