ollama cloud - 另一个coding 的选择?


Ollama’s documentation - Ollama

自从iflow宣布关停以后,我用了几天ollama cloud,发现体验其实挺不错的:

  • 速度比隔壁老黄快多了。即便是免费计划,glm 5.1也能用,速度也还好(我撤回这句话,已经开始卡了:rofl:)。
  • 限额比较慷慨。
    • 免费版轻量级code,大概5h限额不会轻易碰到。
    • 付费版(20$一个月)根据官网,是免费版的50倍。用量相当大了可以说。
    • (有没有大佬计算一下付费版和coding plan的限额哪个更慷慨?)
  • 不压缩、不降智(至少官网这样讲的)
  • 根据GPU时间计算额度,而不是请求数或token。这是好事,因为用更轻的minimax、gemma4和qwen3 coder flash,用量会特别多。以及,不用担心输入量大导致费用爆炸,如果缓存命中,GPU时间会很小。
来自官网

What quantization or data format do cloud models use?

Native weights, as released by the model provider. On modern NVIDIA hardware, models may use accelerated data formats supported by Blackwell and Vera Rubin architectures (e.g. NVFP4).

How much more usage does Pro include?

50x more than Free.

How is usage measured?

Usage reflects actual utilization of Ollama’s cloud infrastructure - primarily GPU time, which depends on model size and request duration. Shorter requests and prompts that share cached context use less.This is different from fixed token or request-based plans. Ollama doesn’t cap you at a set number of tokens. As hardware and model architectures get more efficient, you’ll get more out of your plan over time.


我没有说它的性价比一定比国内的plan高,但它的好处在于:不降智,也不太会恶心人。
大家可以去试试免费的plan,玩玩5.1也好,挺聪明的这个模型。
但是是否付费,需要考虑一下。


以上仅为个人的一点点小发现,仅供参考。欢迎各位讨论!

4 个赞

收到,感谢,明天去试试~

我一直以为 ollama cloud 是完全付费的 :joy: 毕竟本地免费部署,那在线自然就是收费了,而且也没见人推过 :thinking: 看来要找时间试试了

是免费的,正常用很慷慨,但用免费的额度coding就不太够。
但也可以试试,因为付费是它的50x。如果免费好用,对于重度用户,希望用到不降智模型的人,应该也是挺好的选择。。
就是纯走量的话,估计不如那些coding plan pro了。

1 个赞

以及,让我说一下glm-5.1:
这东西 很强 很重 很稳
在软件工程里面会很好用。
但问题是 vibe coding 的话,感觉它过度思考了
engineering 有了,vibe 没了。
如果需要 一句话就完成的前端任务,可能真的不如蠢一点的模型。
不是说5.1不好,是因为它太缜密了。
image
(思考了24分钟被截断了,我的额度:downcast_face_with_sweat:

1 个赞

用力过猛了,还是得平衡一下,这么样可以期待一波5.5?

1 个赞

我不知道它内部的命名规则,也许5.5,也许5.2?
但如果要vibe,我觉得4.7级别的模型是最爽的,5.0是最稳的。
如果让我选一个最好用的,可能会用kimi和qwen。minimax也行,但又有点不够聪明:face_with_peeking_eye:
感觉智谱没有走vibe的路线,这个架势是要直接追claude/codex的真实软件开发能力了。

这样的话还真是omo的那个思路,不同的场景,不同的角色,配不同的模型

只不过omo现在如果全配国模,效果还是要打挺大折扣的