还有免费的api_key吗

10012009285 · 2026 年3 月 23 日 11:32

还有那些地方可以有免费不限额度的api_key啊

10011488078 · 2026 年3 月 23 日 11:41

英伟达？

10009781125 · 2026 年3 月 23 日 11:57

本地ollama搭建一个 qwen3.5:0.8b，quantization Q8_0，异常丝滑，完全免费，无限额度

10011488078 · 2026 年3 月 23 日 11:58

0.8b写项目，不会阿巴阿巴吗

10012009285 · 2026 年3 月 23 日 11:58

看了看，这好像确实可行，谢谢大佬

10009781125 · 2026 年3 月 23 日 12:01

注意审题哦，要求是免费无限额度~~

10009781125 · 2026 年3 月 23 日 12:10

这速度又硬又板正~

10012076032 · 2026 年3 月 23 日 12:15

大佬能写个安装指导吗

10006361091 · 2026 年3 月 23 日 12:35

先下载一个ollama

在ollama中下载
ollama run qwen3.5-instruct:0.8b

10009781125 · 2026 年3 月 23 日 14:01

http://127.0.0.1/11434/v1

key随便造一个就行

10006361091 · 2026 年3 月 23 日 14:02

哈哈哈，是的佬
key:*
哈哈哈

10011114126 · 2026 年3 月 23 日 14:04

其实可以跑个 2b 的 q4 量化，3060/4060 这种 8g 的显卡都能跑，参数的差距不是单靠精度可以弥补的，而且 q4 量化对模型性能的损失应该没有参数差异带来的大吧

只是不知道 qwen3.5 有没有做 qat ，如果有的话效果好的情况下量化几乎没有损失，之前在 qwen3.5 小模型出来之前，最喜欢的就是 gemma3-qat-4b ，小参数而且多模态，不过现在最小的多模态是 qwen3.5-0.8b

这是我部署 2b 的识别图片速度

10009781125 · 2026 年3 月 23 日 14:08

内置API，完全兼容OpenAI和anthropic标准接口，可在iflow cli和claude code随意调用

10006361091 · 2026 年3 月 23 日 14:08

其实2,4,9b都部署过但是它们太慢了

我这边集成显卡

10011114126 · 2026 年3 月 23 日 14:11

搁着扮猪吃老虎是吧看你跑个 0.8b-q8 的以为你是 3060/4060，还叫你换个参数高点的

10011114126 · 2026 年3 月 23 日 14:15

集显那没办法了，推理主要还是看显存大小的，0.8b 我用来做做翻译，还有反推提示词，然后 9b 用来做代码补全

10006361091 · 2026 年3 月 23 日 14:25

嘿嘿，足矣

10011117029 · 2026 年3 月 23 日 14:34

1、智谱有免费模型，模型的速率限制可以看智谱AI开放平台。

2、AtomGit 有暂时无限用的 GLM5 和 Qwen3.5，但要每天点一次右上领取的按钮，等于一天一续。

10011488078 · 2026 年3 月 23 日 15:01

这个不错~

10009781125 · 2026 年3 月 24 日 01:29