本地部署模型搭配iflow cli,效果还可以

这几天尝试在本地部署模型(WSL2(ubuntu 24.04)+20G VRAM),用在iflow cli上。终于跑通了。

优选的GLM-4.7-Flash-Q4KM,用的llama.cpp。自己在本地编译的。

本地部署

其实编译都比较简单,跑起来也还行。

下面贴一下我和模型的对话。

llama.cpp的一键编译脚本:

注意:下面是适配我的显卡,你需要根据自己的选择修改-DGGML_CUDA_ARCHITECTURES=120的值

cuda环境已经可用的话,可以跳过cuda环境配置。

#!/bin/bash
set -e

# 安装依赖
sudo apt update
sudo apt install -y build-essential cmake git cuda-toolkit-12-8

# 配置环境
export PATH=/usr/local/cuda-12.8/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda-12.8/lib64:$LD_LIBRARY_PATH

# 编译 llama.cpp
git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp
mkdir -p build && cd build
cmake .. -DGGML_CUDA=ON -DGGML_CUDA_ARCHITECTURES=120 -DCMAKE_BUILD_TYPE=Release
cmake --build . --config Release -j$(nproc)

echo "编译完成!二进制文件位于: $(pwd)/bin/"

编译之后,就有llama-server了,检查一下:

# 检查 CUDA 支持
./bin/llama-cli --version

启动脚本:

#!/bin/bash
./llama.cpp/build/bin/llama-server \
    --model /gguf-files/GLM-4.7-Flash-Q4_K_M.gguf \
    --alias "GLM-47-Flash" \
    --seed 3407 \
    --temp 0.7 \
    --top-p 1.0 \
    --min-p 0.01 \
    --repeat-penalty 1.0 \
    --ctx-size 16384 \
    --host 0.0.0.0 \
    --port 6006

访问地址:

网页对话: http://localhost:6006
API: http://localhost:6006/v1/

配置iflow cli

启动iflow(可以在windows上使用,只要能访问到服务就可以)。

输入

/auth

输入api地址:

http://localhost:6006/v1

输入秘钥(本地,随便输入):

sk-xxxxxx

输入模型名称(启动脚本中,alias的值):

GLM-47-Flash

回车,即可开始对话。

使用感受

整体感觉,GLM-47-Flash-Q4KM效果还行,就是20G VRAM有点小(还是太穷了…)。

导致推理速度有点慢。

2 个赞

感谢大佬分享~

1 个赞

用 qwen3.5 35B q2量化 起飞(7900XT)

还在探索,glm-47-flash-q4 写代码质量挺高,就是速度太慢了。

写了一个示例项目,要1小时

后面换了qwen3.5-9b q8

速度上来了,质量明显下降.

准备换qwen3-coder试试效果。

有人跑通了LMStudio的接口么?

我在一个早期的iflow-cli版本上修改了请求源代码中涉及系统工具 todo_read 的默认properties 后可用 lmstudio。本来是期待官方自己改的,也不知他改了没有(我猜是没有)。
补丁的方法需要跟着版本变,不太方便。
楼上说llama.cpp可用,就换这个吧。有很多设置上的灵活性。

大佬能出个更加具体的安装部署教程吗,没有心流活不了啊

llama.cpp方便,灵活一些,lm studio也可以,界面方式

你让心流帮你部署,直接把下面这段话发给ai:

在当前系统上,帮我编译部署一个最新版的llama.cpp(github.com可以使用ghfast.top镜像加速下载)。部署之后,帮我从modelscope.cn下载一个glm-4.7-flash-q4_k_m量化版gguf。给我一个启动脚本(100%使用gpu,上下文18000,监听0.0.0.0,6006端口)。部署完成后给我一个部署总结。

我没试lmstudio,如果你觉得llama.cpp麻烦,可以试一下ollama

我给llama-server编了个skills,用iflow cli启动、修改、停止、监控llama-server

这个挺强 :+1:

是的,llama部署很顺利。或许是lmstudio的接口转发有问题?

我没用lmstudio试过,你可以先用postman或者apipost测试一下lmstudio的响应格式.

1 个赞

lmstudio严格校验请求格式符合openai规范,iflow-cli的有点小问题。lmstudio不能兼容,llama.cpp能兼容。

1 个赞

今天试了下,在qwen code下还能继续用