Free Coding Plan

一、Free Coding Plan 模型列表

1、美团龙猫

每天5000W lite + 500W thinking tokens**

用量看板:https://longcat.chat/platform/usage

baseUrl:https://api.longcat.chat/openai (Anthropic格式:https://api.longcat.chat/anthropic

LongCat-Flash-Lite 每天独享5000W tokens,其它模型共享每天50W,但通过申请可提升到每天500W
速率限制 仅仅只是用量限制,没有 QPS、QPM|RPM、TPM!
小声说:申请 随便写写,半小时内 一定能给你提升到 500W,2个账号注意不要写同一家公司

网上对这几个模型吹得很历害:美团 lite、thinking 模型 是对标 Claude Opus 的!:grimacing:
一起来看一下吧!
6:LongCat-Flash-Lite 无思考MoE模型:68.5B总参数的高效大语言模型解决方案 - 安全风信子 - 博客园

LongCat-Flash-Thinking 正式发布,更强、更专业,保持极速! - 美团技术团队

LongCat-Flash-Omni正式发布并开源:开启全模态实时交互时代 - 美团技术团队

模型列表:

模型id 模型别名 描述 最大输出 上下文 请求限制
LongCat-Flash-Chat longcat-flash-chat 高性能通用对话模型 256k 256k 共享500W/天
LongCat-Flash-Omni-2603 longcat-flash-omni 多模态模型,创新性集成了高效多模态感知模块与语音重建模块。即便在总参数 5600 亿(激活参数 270 亿)的庞大参数规模下,仍实现了低延迟的实时音视频交互能力,为开发者的多模态应用场景提供了更高效的技术选择。 8k 共享500W/天
LongCat-Flash-Thinking longcat-flash-thinking 在逻辑、数学、代码、智能体等多个领域的推理任务中,达到了全球开源模型的最先进水平(SOTA)。通用推理能力在 ARC-AGI 基准测试中以 50.3 分超越 OpenAI o3、Gemini2.5 Pro 等顶尖闭源模型,ATP 形式推理能力在 MiniF2F-test 基准中的 pass@1 获得 67.6 的分数,大幅领先所有其他参与评估的模型。代码能力在LiveCodeBench 上以 79.4 分显著超越参与评估的开源模型,对标GPT-5,在 OJBench 基准测试中以 40.7 的得分接近 Gemini2.5-Pro 的水平。每秒44 tokens的吞吐率(TPS)。每秒44 tokens的吞吐率(TPS)。 256k 256k 共享500W/天
LongCat-Flash-Lite longcat-flash-lite 高效轻量化MoE模型,总参数量68.5B,激活3B,无思考 在智能体和代码任务上进行了专门优化:优化智能体的推理和决策能力,提升代码理解和生成能力,增强复杂逻辑推理能力,优化多步骤任务的处理能力 。相当快:每秒175 tokens的吞吐率(TPS) 320k 256k 5000W/天

不瞒你们说,我已经偷偷用了一个周了(2个号负载均衡),用得不错才来分享的,lite模型 在 Librarian 和 Explore 角色上没有问题(最大输出320k, 250k上下文),thinking模型指令遵循上很不错

thinking模型 我没有设置最大思维链。

2、NVIDIA 确实很大方!

登录→短信验证时不要选择地区,把 +1 改成 +86 后面跟手机号即可,

请求限制:RPM:40 (实际测试约数,我是用3个号做的负载均衡,因此开发上没卡过)

模型列表:https://build.nvidia.com/models?orderBy=name%3AASC&filters=nimType%3Anim_type_preview

apiKey 申请:https://build.nvidia.com/settings/api-keys

在之前的帖子中 我对它的评测不足,因为我只测了主流模型,但确实 主流的模型 基本都用不了(响应慢到超时),现在我把所有文本模型都测了:(其中的”绝对快“,并非吞吐率TPS,而是响应快,吞吐率下方表格中我也测了)

目前能用的:(这不是图片,这是表格,你可以点击右上角全屏查看,复制粘贴拿走~~)

模型id 模型别名 描述 最大输入 最大输出 最大思维链长度 上下文 类型 TPS
deepseek-ai/deepseek-v4-pro deepseek-v4-pro Agentic Coding 模型,据评测反馈使用体验优于 Sonnet 4.5,交付质量接近 Opus 4.6 非思考模式,但仍与 Opus 4.6 思考模式存在一定差距。针对 Claude Code 、OpenClaw、OpenCode、CodeBuddy 等主流的 Agent 产品进行了适配和优化。 - 384k - 1m 文本 每秒26 tokens
nvidia/nemotron-3-super-120b-a12b nemotron-3-super-120b-a12b 一款 120B 参数的开放混合 MoE 模型,激活 12B 参数,编程适用:复杂多步骤任务,需要深度规划与推理的复杂编码任务。需指定思维链长度16384(官方示例中的),否则会过度思考 64k 16k 1000k -
mistralai/devstral-2-123b-instruct-2512 devstral-2-123b-instruct Mistral AI 开发的开源智能体编码模型,123B参数密集Transformer模型。支持代码库探索、跨多文件编排更改、跟踪框架依赖、检测故障并重试修正。在 SWE-bench、编码、工具调用和智能体用例方面达到SOTA水平。 262k 65k - 256K 文本 每秒53 tokens
nvidia/nemotron-3-nano-30b-a3b nemotron-3-nano-30b-a3b 30 B 参数的混合 Mixture‑of‑Experts(MoE)模型,采用 Mamba‑2 与 Transformer 组合,Mamba-2 混合架构在长序列建模上的有效性,使其各项能力领先同等规模(30b-a3b)模型30%左右,代码能力 HumanEval 得分 78.05%。支持思考。不需要指定思维链长度 - 32k - 256k 文本,思考 每秒228 tokens
qwen/qwen3-next-80b-a3b-instruct qwen3-next-80b-a3b-instruct 阿里巴巴开发的混合专家(MoE)架构大语言模型,总参数800亿,激活参数约30亿,原生支持262144 tokens上下文长度,支持中文深度优化和企业级安全功能。 256k 16k - 256k 文本 每秒90 tokens
stepfun-ai/step-3.5-flash step-3.5-flash Step 3.5 Flash 是 StepFun 最强大的开源基础模型。基于稀疏混合专家(MoE)架构,每令牌仅激活其 1960 亿参数中的 110 亿参数。SWE-bench Verified 取得 74.4%,Terminal-Bench 2.0取得 51.0%,xbench-DeepSearch(2025.05)评测中获得83.7分,证明其在复杂编程和命令行任务中的强大能力。建议指定思维链长度,否则复杂任务思考时长会长达6分钟 256k 66k - 256k 文本 每秒50 tokens
minimaxai/minimax-m2.5 minimax-m2.5 原生 Spec 能力(在编码前自动拆解需求,生成架构图与功能模块规划,接近人类架构师思维) 工具调用增强,多编程语言支持(代码生成质量接近生产级) 编程效率 对标 GPT-4 Turbo。建议指定思维链长度,否则复杂任务思考时长会长达30多秒 192k 128k - 200k 文本,思考 -
openai/gpt-oss-120b gpt-oss-120 gpt-oss-120b 是 OpenAI 推出的开源权重、1170 亿参数的混合专家(MoE)语言模型,专为高推理、智能体和通用生产用例而设计。每次前向传递激活 51 亿参数,并针对单个 H100 GPU 运行进行了优化,支持原生 MXFP4 量化。性能表现超越 OpenAI o3‑mini,对标 OpenAI o4-mini 。 不需要指定思维链长度 128k 4k - 128k 文本,思考 每秒214 tokens

上述 deepseek-v4-pro 不是很稳定:auth_unavailable: no auth available (providers=nvidia, model=deepseek-v4-pro)
还有3个也能用,响应快,但是吞吐率TPS很低:

模型id 模型别名 描述 最大输入 最大输出 上下文 类型
abacusai/dracarys-llama-3.1-70b-instruct dracarys-llama-3.1-70b-instruct 基于 Llama-3.1-70B-Instruct 的指令微调版本,由 Abacus.ai 优化。具备多语言理解与生成能力,特别针对复杂推理、代码生成、数学问题等场景优化。保留原生 Llama 3.1 的高性能,同时通过指令微调增强交互体验。很慢:每秒12 tokens的吞吐率(TPS) 128k 8k 128k 文本
deepseek-ai/deepseek-v3.1 deepseek-v3.1 相比上一版解决了一系列问题:语言一致性: 缓解了中英文混杂、偶发异常字符等情况;Agent 能力: 进一步优化了 Code Agent 与 Search Agent 的表现,每秒22 tokens的吞吐率(TPS) 96k 64k - 128k 文本
moonshotai/kimi-k2-instruct kimi-k2-instruct 基于 DeepseekV3 架构的稠密-稀疏混合专家语言模型,总参数 1T、激活 32B,采用 MLA 注意力+ SwiGLU 激活;原生 FP8 量化,支持工具调用与长文档分析;在 vLLM、SGLang 上可直接部署,兼顾高精度与高效推理。每秒16 tokens的吞吐率(TPS) 128k 4k - 128k 文本

3、OpenRouter

需要充值10美元才能 1000次/天 调用,否则只能50次/天,调用免费模型还有个限制:QPM:20(每分钟最多请求20次)

  • 免费额度:每天 50 次。充值10美元才能 1000次/天 调用,且 RPM + 10

  • 速率限制:每分钟 20 个请求。账户积分数量 = 每秒请求数。RPM:20

  • 对充值后一年后还没用的 Credits 不会做过期处理,官方在邮件里已经承诺

免费模型列表:https://openrouter.ai/models?fmt=cards&max_price=0&output_modalities=text

10万积分网络搜索免费送:https://openrouter.ai/workspaces/default/byok?tab=web-search

用量看板:https://openrouter.ai/activity

模型id中 **带 :free 是永久免费的,官方文档中有说明。**模型id不带:free 但是价格免费的,都是限时免费,比如之前的 qwen3.6-plus 已经没了。

对充值后一年后还没用的 Credits 不会做过期处理,官方在邮件里已经承诺,这个你们不用担心,我已经截图:(我两个号各充了10美元 → ¥148.38**)**

我测试了它所有免费模型(文本类),它的免费模型很少,真的很少,而且 和 NVIDIA 一样,主流模型 基本不能用,会直接报 429 请求速率限制,哪怕你是开号第1次请求
目前能用的只有3个:

模型id 模型别名 描述 最大输入 最大输出 最大思维链长度 上下文 类型
nvidia/nemotron-3-super-120b-a12b:free nemotron-3-super-120b-a12b 一款 120B 参数的开放混合 MoE 模型,激活 12B 参数,编程适用:复杂多步骤任务,需要深度规划与推理的复杂编码任务。需指定思维链长度16384,否则会过度思考 64k 16k 1000k
nvidia/nemotron-3-nano-30b-a3b:free nemotron-3-nano-30b-a3b 30 B 参数的混合 Mixture‑of‑Experts(MoE)模型,采用 Mamba‑2 与 Transformer 组合,Mamba-2 混合架构在长序列建模上的有效性,使其各项能力领先同等规模(30b-a3b)模型30%左右,代码能力 HumanEval 得分 78.05%。支持思考,不需要指定思维链长度 32k - 256k 文本,思考
openai/gpt-oss-120b:free gpt-oss-120b gpt-oss-120b 是 OpenAI 推出的开源权重、1170 亿参数的混合专家(MoE)语言模型,专为高推理、智能体和通用生产用例而设计。每次前向传递激活 51 亿参数,并针对单个 H100 GPU 运行进行了优化,支持原生 MXFP4 量化。性能表现超越 OpenAI o3‑mini,对标 OpenAI o4-mini 128k 4k - 128k 文本

4、魔塔社区

需关联阿里云账号,每天2000次免费调用,单个模型有额外上限

apiKey创建:https://www.modelscope.cn/my/access/token

baseUrl:https://api-inference.modelscope.cn/v1 ( Anthropic 不需要加后缀 /v1)

在之前的帖子中 我也是对它的评测不足,因为我只测了主流模型,但确实 主流的模型 基本都用不了(明明隔了一天都没用,就直接报429 请求速率限制
但同样地,非主流模型 可用于开发的也是不少的:(kimi-k2.5除外,我实在不能不用)
我测了所有文本模型(上下文少于128k的除外),能用的如下:

  • qwen3-14b 必须指定 maxTokens 为8192,否则 会报错
  • qwen3-235b-a22b-thinking 必须指定 上下文 content 为 126976,否则 会报错
  • 不能用:glm-5,glm-4.7,glm-4.6,glm-4.5,DeepSeek-R1-Distill-Llama-70B
  • 可用但低智:Qwen3-30B-A3B-Instruct、Qwen3-30B-A3B-Thinking
  • 速率(TPS)低:Qwen/Qwen3.5-27B、qwen3.5-397b-a17b
模型ID 模型别名 描述 最大输入 最大输出 最大思维链长度 上下文 类型 TPS
MiniMax/MiniMax-M1-80k minimax-m1 MiniMax-M1 是一款开源的超大规模语言模型,拥有约 4560 亿总参数,激活约 45.9 亿参数,采用混合专家(MoE)架构、Flash Attention 和 CISPO 优化算法,支持最高 100 万 token 的输入上下文和最高 80 k token 的输出,实现高效长上下文推理。 1000k 80k - 1m 文本,思考 每秒11 tokens
Qwen/Qwen3-Coder-480B-A35B-Instruct qwen3-coder-480b-a35b-instruct 由 Qwen 团队开发的混合专家(MoE)代码生成模型。它针对智能体编码任务进行了优化,例如函数调用、工具使用和仓库的长上下文推理。该模型总参数量为 4800 亿,每次前向传递激活 350 亿参数(160 个专家中的 8 个)。 推荐采样参数:temperature=0.7, top_p=0.8, top_k=20, repetition_penalty=1.05 200k 64k - 256k 文本. 每秒96 tokens
Qwen/Qwen3-Coder-30B-A3B-Instruct qwen3-coder-30b-a3b-instruct 305 亿参数混合专家(MoE)模型,含 128 个专家网络,每次前向激活约33 亿参数 , 由阿里巴巴通义千问团队开发,专用于高级代码生成仓库级理解 • 在Agentic CodingAgentic Browser-Use等复杂任务表现优异 , 支持函数调用工具集成结构化输出 , 编码基准测试准确率89%,数学准确率89%,伦理推理准确率**98%* , 适合开发者进行大规模代码重构、API 集成、测试生成等场景。 126k 32k - 256k 文本 每秒79 tokens
Qwen/Qwen3-Next-80B-A3B-Instruct qwen3-next-80b-a3b-instruct Qwen3-Next 系列中的指令调优聊天模型,针对快速、稳定的响应进行了优化,不会留下“思考”痕迹。它面向推理、代码生成、知识问答和多语言使用的复杂任务,同时在对齐和格式化方面保持稳健。 126k 64k - 256k 文本 每秒231 tokens
Qwen3-Next-80B-A3B-Thinking qwen3-next-80b-a3b-thinking 智谱AI推出的一系列超大规模语言模型中的一个,具备800亿参数量(实际激活为30亿),它通过混合注意力机制、高稀疏性的Mixture-of-Experts (MoE) 和多令牌预测 (MTP) 等创新技术,提升推理效率并优化长上下文处理能力。该模型专门支持“思考模式”(Thinking Mode),在复杂推理任务中表现出色,被证明在多个基准测试中优于之前的版本和其它开源模型。 126k 64k - 256k 文本,思考 -
Qwen/Qwen3.5-122B-A10B qwen3.5-122b-a10b Qwen3.5系列122B-A10B原生视觉语言模型,基于混合架构设计,融合了线性注意力机制与稀疏混合专家模型,实现了更高的推理效率。该模型的综合表现仅次于Qwen3.5-397B-A17B,文本能力显著优于Qwen3-235B-2507,视觉能力优于Qwen3-VL-235B。 254k 64k 80k 256k 思考、 文本、视觉 每秒88 tokens
Qwen/Qwen3-235B-A22B-Thinking-2507 qwen3-235b-a22b-thinking 主要增强功能如下: 在推理任务上的性能显著提高,包括逻辑推理、数学、科学、编码和通常需要人类专业知识的学术基准——在开源思维模型中取得最先进的成果。 明显更好的通用能力,例如指令遵循、工具使用、文本生成和与人类偏好的一致性。 增强了256K长上下文理解能力。 124k 32k 80k 256k 文本,思考 每秒53 tokens
Qwen/Qwen3-235B-A22B-Instruct-2507 qwen3-235b-a22b-instruct Qwen3-235B-A22B 是 Qwen 系列中最新一代大型语言模型,提供全面的密集模型和混合专家 (MoE) 模型。Qwen3 基于丰富的训练经验,在推理、指令遵循、代理能力和多语言支持方面取得了突破性进展。 124k 32k - 256k 文本 每秒59 tokens
stepfun-ai/Step-3.5-Flash step-3.5-flash Step 3.5 Flash 是 StepFun 最强大的开源基础模型。基于稀疏混合专家(MoE)架构,每令牌仅激活其 1960 亿参数中的 110 亿参数。它是一个推理模型,即使在长上下文中也具有极高的速度效率。相对其他大模型提供商仅开源基础模型,而Step 3.5 Flash 允许开发者直接调用中训练阶段的专项能力模块(如代码生成、工具调用),使模型定制化效率提升40%。在专业评测中,SWE-bench Verified 取得 74.4%,Terminal-Bench 2.0取得 51.0%,xbench-DeepSearch(2025.05)评测中获得83.7分,证明其在复杂编程和命令行任务中的强大能力。 256k 66k - 256k 文本, 图像 每秒550-760 tokens
moonshotai/Kimi-K2.5 kimi-k2.5 Kimi K2.5 在 Agent、代码、视觉理解及一系列通用智能任务上取得开源 SoTA 表现。同时 Kimi K2.5 也是 Kimi 迄今最全能的模型,原生的多模态架构设计,同时支持视觉与文本输入、思考与非思考模式、对话与 Agent 任务。实测测试请求限制太高经常报错,约50次/天 224k 16k - 256k 多模态 每秒43 tokens
MiniMax/MiniMax-M2.5 minimax-m2.5 原生 Spec 能力(在编码前自动拆解需求,生成架构图与功能模块规划,接近人类架构师思维) 工具调用增强,多编程语言支持(代码生成质量接近生产级) 编程效率 对标 GPT-4 Turbo。在SWE-Bench验证中获得80.2%,Multi-SWE-Bench中51.3%,BrowseComp(含上下文管理)中得分76.3%。经过训练,M2.5 能够高效推理并优化任务分解,在执行复杂智能体任务时表现出极高的速度,完成 SWE-Bench Verified 评估比 M2.1 快 37%,与 Claude Opus 4.6 的速度相当。建议指定思维链长度,否则复杂任务思考时长会长达30多秒 192k 16k - 200k 文本 每秒77 tokens
Qwen/Qwen3-235B-A22B qwen3-235b-a22b Qwen 系列中最新一代大型语言模型,提供全面的密集模型和混合专家 (MoE) 模型。Qwen3 基于丰富的训练经验,在推理、指令遵循、代理能力和多语言支持方面取得了突破性进展。 126k 16k 38k 128k 文本,思考 每秒36 tokens
Qwen/Qwen3-14B qwen3-14b Qwen3-14B是由阿里云开发的大型语言模型,具有14.8B的参数量,其中13.2B为非嵌入参数,训练数据量显著提升。相比Qwen2.5 instruct模型,其显著增强了推理、代码生成和智能体任务的表现。Qwen3-14B支持思维模式和非思维模式,非思考模式下表现与Qwen2.5相当,思考模式下超越QwQ-32B。并且在多语言支持和指令遵循方面表现出色。 32k 8k - 128k 文本 每秒54 tokens

5、智谱

apiKey查看: 智谱AI开放平台

baseUrl:https://api.z.ai/api/paas/v4

模型列表:https://bigmodel.cn/console/modelcenter/square

免费模型列表:https://docs.bigmodel.cn/cn/guide/models/free

用量余额:https://bigmodel.cn/finance-center/resource-package/package-mgmt

智谱说实话,只有1个模型可用:glm-4-fash,但为了做对比,我还是做个表格,其中黑色粗体进行了说明

模型id 说明 模型别名 最大输入 最大输出 上下文 最大思维链长度 类型 请求限制 限量
glm-4.1v-thinking-flash 在图表/视频理解、前端 Coding、GUI 任务等场景表现出色,核心能力达到全面新 SOTA。模型引入思维链推理机制,显著提升了复杂场景中的回答精准度与可解释性。 不支持工具调用导致经常报错 glm-4.1v-thinking-flash - - - - 多模态 QPS:5 免费
glm-4-flash 在实时网页检索、长上下文处理、多语言支持等方面表现出色,适用于智能问答、摘要生成和文本数据处理等多种应用场景。适用于 写作建议(情节构思、文字润色、推文、文案)、多语言翻译、结构化数据处理 glm-4-flash - 16k 128k - 文本 QPS:200 免费
glm-4-flash-250414 - 每次请求都报错 glm-4-flash - 16k 128k - 文本 QPS:5 免费

三方文档:

GLM-4.1V-Thinking - 智谱AI开源的视觉语言模型系列 | AI工具集

GLM-4-Flash:智谱AI推出的首个免费API服务,支持128K上下文 - AIHub

二、多账号负载均衡工具

1、Simple-One-Api:

基于GO,one-api 减法,非常推荐

开源地址:https://github.com/fruitbars/simple-one-api

介绍:https://mp.weixin.qq.com/s/ykhTXV0ynmtnkOwNYU3yGQ

推荐用我的,我对它进行了一些修复,提了PR,但是还没有响应
nreg/simple-one-api-fix-cozecn: 修复 cozecn_v3 思考模型 reasoning_content 流式响应

2、CLIProxyAPI:

基于GO,非常推荐

开源地址:https://github.com/router-for-me/CLIProxyAPI

文档地址:https://help.router-for.me/cn/configuration/basic.html

介绍:https://jishuzhan.net/article/2019240010068312066

PS:

这类工具还是蛮多的,我个人只是用了上面2个,非常好上手,当前在用的是 带界面的 CLIProxyAPI,不带界面 的 Simple-One-Api 可以转发 扣子编程 ,不过我测了 扣子编程 确实可以做个智能体,然后 bot_id 做模型id,个人访问令牌 做 api_key 可以实现 外部 api 请求,但是对于我们开发来说,有一个痛点,它是智能体,它只能用 智能体 编程界面的 ”插件“ 做 tools 参数,也就是说 IDE开发工具里的 MCP 它调不了,它会以它的插件覆盖掉 上送的 tools 参数(Simple-One-Api 的 cozecn_v3 的代码 我加上了tools参数,但是无论工作流智能体还是单 agent 智能体 都不能 使用 tools 参数,导致智能体不能调用外部工具,只能使用扣子平台的插件)。

3、类似的工具:

LiteLLM:统一模型服务接口的Python代理库,25k star
开源地址:https://github.com/BerriAI/litellm

官网:https://github.com/BerriAI/litellm

标准版: https://docs.litellm.ai/

中文版: https://docs.litellm.com.cn/
介绍:
https://mp.weixin.qq.com/s/4W3f3kDSHOL3tKlRNic-Eg
https://mp.weixin.qq.com/s/-N6lMPd4YV5fT2IRZ0Codw

any-llm:统一模型服务接口的Python代理库

开源地址:https://github.com/mozilla-ai/any-llm

介绍:https://mp.weixin.qq.com/s/npUCsz0qoQXK0sAiMjZSWQ

**one-api:**基于GO

开源地址:https://github.com/songquanpeng/one-api

介绍:
https://mp.weixin.qq.com/s/1I9YqUj-7mq9MBsiBeOmHA
https://mp.weixin.qq.com/s/_2p8Srx2tY3FhUDJfnSanw

new-api:(基于GO,one-api 加法)
开源地址:https://github.com/QuantumNous/new-api

介绍:https://mp.weixin.qq.com/s/oO8w5kdqIaDzOuykVtIwaA

4、工具对比

项目 类型 技术栈 复杂度 核心优势 适用对象或场景 关键功能
One-API 全功能 API 网关 Go [1] 统一接口,一套代码调用多服务商,简化维护;高性能(Go 语言),开箱即用的 UI 专注于运营和管理 [1]。 需要商业化分发和成本控制的团队 [1]。 - 统一 OpenAI 格式接口 - 多渠道负载均衡与失败重试 - 用户/密钥分发 - 预算控制与额度管理 - 支持多机部署 [1]
Simple-One-API 轻量级 API 适配工具 (无Web UI,配置文件驱动) Go [4] 极简专注,开箱即用,特别优化国产免费模型 [4]。 个人开发者、快速原型验证 [4]。 - 兼容多种国产大模型 - 随机负载均衡 - 独立配置各服务的并发/QPS - 支持为每个服务配置代理 [4]
CLIProxyAPI 轻量级 API适配提供商授权 (含Web UI,配置文件驱动) Go [4] 极简专注,开箱即用,特别优化提供商授权 个人开发者、快速原型验证 - 独立配置各服务的并发/QPS - 支持为每个服务配置代理 - 多key统一配置
New-API 增强版 API 网关 Java (Spring Boot) [2] 很高 在 One-API 基础上,提供更强的格式转换能力和更多前沿模型支持 [2]。 需要 One-API 功能并追求更多高级特性和前沿模型支持的高级用户、团队或公司内部平台 [2]。 - 完全兼容 One-API 功能 - 高级 API 格式转换 (OpenAI<->Claude等) - 支持 Midjourney, Suno 等新服务 - 现代化 UI 与多语言 - 丰富第三方登录 [2]
LiteLLM Python SDK / 可选代理服务器 Python [5] 模型支持最广(100+),开发者体验极佳,与 Python 生态无缝集成;代理服务器功能强大,支持虚拟密钥、成本跟踪、负载均衡等 [5]。 Python 应用开发者 [5]。 - 库模式统一调用 - 代理模式部署独立网关 - 支持100+模型 [5]
any-llm Python SDK (用于开发) Python [3] 轻量级,通过利用官方提供商 SDK 来保证兼容性和可靠性;无需代理或网关服务器,直接与 LLM 提供商通信,降低延迟和数据泄露风险 [3]。 希望在代码层面快速切换不同模型、进行原型开发或模型比较的 Python 开发者 [3]。 - 统一接口调用 OpenAI, Mistral, Anthropic 等主流提供商 - 使用官方 SDK 确保兼容性 - 无代理依赖,直接通信 - 响应格式标准化 [3]

三、附录

下面是我个人的配置参考就好哈,可以拿去直接体验~

1、OpenCode 配置:

{
  "$schema": "https://opencode.ai/config.json",
  "plugin": [
    "oh-my-openagent@latest"
  ],
  "watcher": {
    "ignore": [
      "node_modules/**",
      "dist/**",
      ".git/**",
      ".gitnexus/**",
      ".idea/**"
    ]
  },
  "agent": {
    "compaction": {
      "mode": "primary",
      "model": "nreg/nemotron-3-super-120b-a12b"
    },
    "summary": {
      "mode": "primary",
      "model": "nreg/nemotron-3-super-120b-a12b"
    },
    "title": {
      "mode": "primary",
      "model": "nreg/longcat-flash-lite"
    }
  },
  "provider": {
    "nreg": {
      "npm": "@ai-sdk/openai-compatible",
      "name": "nreg",
      "options": {
        "baseURL": "http://192.168.1.108:9090/v1",
        "apiKey": "sk-000111222333444555666777888999"
      },
      "models": {
        "longcat-flash-lite": {
          "name": "longcat-flash-lite",
          "limit": {
            "context": 256000,
            "output": 320000
          },
          "modalities": {
            "input": [
              "text"
            ],
            "output": [
              "text"
            ]
          }
        },
        "longcat-flash-omni": {
          "name": "longcat-flash-omni",
          "limit": {
            "context": 128000,
            "output": 8000
          },
          "modalities": {
            "input": [
              "text",
              "image"
            ],
            "output": [
              "text"
            ]
          }
        },
        "nemotron-3-nano-30b-a3b": {
          "name": "nemotron-3-nano-30b-a3b",
          "limit": {
            "context": 1048576,
            "output": 128000
          },
          "modalities": {
            "input": [
              "text"
            ],
            "output": [
              "text"
            ]
          }
        },
        "qwen3-235b-a22b-instruct": {
          "name": "qwen3-235b-a22b-instruct",
          "limit": {
            "context": 256000,
            "output": 32000
          },
          "modalities": {
            "input": [
              "text"
            ],
            "output": [
              "text"
            ]
          }
        },
        "qwen3-coder-30b-a3b-instruct": {
          "name": "qwen3-coder-30b-a3b-instruct",
          "limit": {
            "context": 256000,
            "output": 32000
          },
          "modalities": {
            "input": [
              "text"
            ],
            "output": [
              "text"
            ]
          }
        },
        "qwen3-coder-next": {
          "name": "qwen3-coder-next",
          "limit": {
            "context": 256000,
            "output": 64000
          },
          "modalities": {
            "input": [
              "text"
            ],
            "output": [
              "text"
            ]
          }
        },
        "qwen3-next-80b-a3b-thinking": {
          "name": "qwen3-next-80b-a3b-thinking",
          "limit": {
            "context": 129024,
            "output": 16000
          },
          "options": {
            "thinking": {
              "budgetTokens": 20480,
              "type": "enabled"
            }
          },
          "modalities": {
            "input": [
              "text"
            ],
            "output": [
              "text"
            ]
          }
        },
        "hunyuan-lite": {
          "name": "hunyuan-lite",
          "limit": {
            "context": 256000,
            "output": 6000
          },
          "modalities": {
            "input": [
              "text"
            ],
            "output": [
              "text"
            ]
          }
        },
        "qwen3-235b-a22b-thinking": {
          "name": "qwen3-235b-a22b-thinking",
          "limit": {
            "context": 126976,
            "output": 32000
          },
          "options": {
            "thinking": {
              "budgetTokens": 20480,
              "type": "enabled"
            }
          },
          "modalities": {
            "input": [
              "text"
            ],
            "output": [
              "text"
            ]
          }
        },
        "step-3.5-flash": {
          "name": "step-3.5-flash",
          "limit": {
            "context": 256000,
            "output": 67584
          },
          "modalities": {
            "input": [
              "text",
              "image"
            ],
            "output": [
              "text"
            ]
          },
          "thinking": {
            "budgetTokens": 20480,
            "type": "enabled"
          }
        },
        "glm-4-flash": {
          "name": "glm-4-flash",
          "limit": {
            "context": 128000,
            "output": 32000
          },
          "modalities": {
            "input": [
              "text"
            ],
            "output": [
              "text"
            ]
          }
        },
        "gpt-oss-120b": {
          "name": "gpt-oss-120b",
          "limit": {
            "context": 128000,
            "output": 4000
          },
          "options": {
            "thinking": {
              "budgetTokens": 8000,
              "type": "enabled"
            }
          },
          "modalities": {
            "input": [
              "text"
            ],
            "output": [
              "text"
            ]
          }
        },
        "glm-z1-9b": {
          "name": "glm-z1-9b",
          "limit": {
            "context": 128000,
            "output": 32000
          },
          "options": {
            "thinking": {
              "budgetTokens": 20480,
              "type": "enabled"
            }
          },
          "modalities": {
            "input": [
              "text"
            ],
            "output": [
              "text"
            ]
          }
        },
        "doubao-seed-2.0-code": {
          "name": "doubao-seed-2.0-code",
          "limit": {
            "context": 256000,
            "output": 131072
          },
          "modalities": {
            "input": [
              "text"
            ],
            "output": [
              "text"
            ]
          }
        },
        "minimax-m2.5": {
          "name": "minimax-m2.5",
          "limit": {
            "context": 204800,
            "output": 16000
          },
          "options": {
            "thinking": {
              "budgetTokens": 20480,
              "type": "enabled"
            }
          },
          "modalities": {
            "input": [
              "text"
            ],
            "output": [
              "text"
            ]
          }
        },
        "qwen3.5-397b-a17b": {
          "name": "qwen3.5-397b-a17b",
          "limit": {
            "context": 256000,
            "output": 64000
          },
          "modalities": {
            "input": [
              "text",
              "image"
            ],
            "output": [
              "text"
            ]
          }
        },
        "qwen3-14b": {
          "name": "qwen3-14b",
          "limit": {
            "context": 131072,
            "output": 8192
          },
          "maxTokens": 8192,
          "modalities": {
            "input": [
              "text"
            ],
            "output": [
              "text"
            ]
          }
        },
        "qwen3-coder-480b-a35b-instruct": {
          "name": "qwen3-coder-480b-a35b-instruct",
          "limit": {
            "context": 256000,
            "output": 64000
          },
          "modalities": {
            "input": [
              "text"
            ],
            "output": [
              "text"
            ]
          }
        },
        "devstral-2-123b-instruct": {
          "name": "devstral-2-123b-instruct",
          "limit": {
            "context": 131072,
            "output": 66560
          },
          "modalities": {
            "input": [
              "text"
            ],
            "output": [
              "text"
            ]
          }
        },
        "llama-4-maverick-17b-128e-instruct": {
          "name": "llama-4-maverick-17b-128e-instruct",
          "limit": {
            "context": 1048576,
            "output": 128000
          },
          "modalities": {
            "input": [
              "text",
              "image"
            ],
            "output": [
              "text"
            ]
          }
        },
        "longcat-flash-thinking": {
          "name": "longcat-flash-thinking",
          "limit": {
            "context": 256000,
            "output": 256000
          },
          "modalities": {
            "input": [
              "text"
            ],
            "output": [
              "text"
            ]
          }
        },
        "nemotron-3-super-120b-a12b": {
          "name": "nemotron-3-super-120b-a12b",
          "limit": {
            "context": 1000000,
            "output": 67584
          },
          "options": {
            "thinking": {
              "budgetTokens": 16384,
              "type": "enabled"
            }
          },
          "modalities": {
            "input": [
              "text"
            ],
            "output": [
              "text"
            ]
          }
        },
        "longcat-flash-chat": {
          "name": "longcat-flash-chat",
          "limit": {
            "context": 256000,
            "output": 256000
          },
          "modalities": {
            "input": [
              "text"
            ],
            "output": [
              "text"
            ]
          }
        },
        "qwen3-next-80b-a3b-instruct": {
          "name": "qwen3-next-80b-a3b-instruct",
          "limit": {
            "context": 256000,
            "output": 16000
          },
          "modalities": {
            "input": [
              "text"
            ],
            "output": [
              "text"
            ]
          }
        },
        "kimi-k2.5": {
          "name": "kimi-k2.5",
          "limit": {
            "context": 256000,
            "output": 16000
          },
          "modalities": {
            "input": [
              "text",
              "image"
            ],
            "output": [
              "text"
            ]
          }
        },
        "glm-4.1v-thinking-flash": {
          "name": "glm-4.1v-thinking-flash",
          "limit": {
            "context": 64000,
            "output": 32000
          },
          "options": {
            "thinking": {
              "budgetTokens": 20480,
              "type": "enabled"
            }
          },
          "modalities": {
            "input": [
              "text",
              "image"
            ],
            "output": [
              "text"
            ]
          }
        }
      }
    }
  },
  "mcp": {
    "context7": {
      "type": "local",
      "command": [
        "npx",
        "-y",
        "@upstash/context7-mcp@latest"
      ],
      "environment": {
        "DEFAULT_MINIMUM_TOKENS": "10000"
      },
      "enabled": true
    },
    "chrome-devtools": {
      "type": "local",
      "command": [
        "npx",
        "-y",
        "chrome-devtools-mcp@latest"
      ],
      "enabled": true
    }
  }
}

2、OMO 配置:

{
  "$schema": "https://raw.githubusercontent.com/code-yeongyu/oh-my-openagent/dev/assets/oh-my-openagent.schema.json",
  "background_task": {
    "modelConcurrency": {
      "nreg/devstral-2-123b-instruct": 5,
      "nreg/doubao-seed-2.0-code": 2,
      "nreg/gpt-oss-120b": 5,
      "nreg/kimi-k2.5": 5,
      "nreg/llama-4-maverick-17b-128e-instruct": 5,
      "nreg/longcat-flash-chat": 10,
      "nreg/longcat-flash-lite": 10,
      "nreg/longcat-flash-thinking": 10,
      "nreg/nemotron-3-nano-30b-a3b": 5,
      "nreg/nemotron-3-super-120b-a12b": 5,
      "nreg/qwen3-coder-480b-a35b-instruct": 5,
      "nreg/qwen3-next-80b-a3b-instruct": 5,
      "nreg/qwen3-next-80b-a3b-thinking": 5,
      "nreg/qwen3.5-397b-a17b": 5,
      "nreg/step-3.5-flash": 5
    },
    "providerConcurrency": {
      "nreg": 15
    }
  },
  "runtime_fallback": {
    "cooldown_seconds": 60,
    "enabled": true,
    "max_fallback_attempts": 3,
    "notify_on_fallback": true,
    "retry_on_errors": [
      400,
      429,
      503,
      529
    ],
    "timeout_seconds": 30
  },
  "agents": {
    "atlas": {
      "model": "nreg/nemotron-3-super-120b-a12b",
      "fallback_models": [
        "nreg/qwen3.5-122b-a10b",
        {
          "model": "nreg/qwen3-next-80b-a3b-instruct",
          "variant": "low"
        },
        {
          "model": "nreg/qwen3-235b-a22b-thinking",
          "variant": "medium"
        }
      ],
      "prompt_append": ",始终使用中文回复"
    },
    "explore": {
      "model": "nreg/longcat-flash-lite",
      "fallback_models": [
        "nreg/step-3.5-flash",
        {
          "model": "nreg/gpt-oss-120b",
          "variant": "low"
        }
      ],
      "prompt_append": ",始终使用中文回复"
    },
    "hephaestus": {
      "model": "nreg/nemotron-3-super-120b-a12b",
      "fallback_models": [
        "nreg/qwen3.5-397b-a17b"
      ],
      "prompt_append": ",始终使用中文回复"
    },
    "librarian": {
      "model": "nreg/longcat-flash-lite",
      "fallback_models": [
        "nreg/step-3.5-flash",
        {
          "model": "nreg/gpt-oss-120b",
          "variant": "low"
        }
      ],
      "prompt_append": ",始终使用中文回复"
    },
    "metis": {
      "model": "nreg/minimax-m2.5",
      "fallback_models": [
        "nreg/qwen3-235b-a22b-thinking"
      ],
      "prompt_append": ",始终使用中文回复"
    },
    "momus": {
      "model": "nreg/kimi-k2.5",
      "fallback_models": [
        "nreg/qwen3-235b-a22b-thinking"
      ],
      "prompt_append": ",始终使用中文回复"
    },
    "multimodal-looker": {
      "model": "nreg/qwen3.5-397b-a17b",
      "fallback_models": [
        {
          "model": "nreg/qwen3.5-122b-a10b",
          "variant": "medium"
        }
      ],
      "prompt_append": ",始终使用中文回复"
    },
    "oracle": {
      "model": "nreg/qwen3-235b-a22b-thinking",
      "fallback_models": [
        "nreg/qwen3.5-122b-a10b",
        {
          "model": "nreg/qwen3.5-397b-a17b",
          "reasoningEffort": "high"
        }
      ],
      "prompt_append": "Focus on architecture decisions, complex debugging, and deep technical analysis. Read-only mode: do not write code,始终使用中文回复"
    },
    "prometheus": {
      "model": "nreg/nemotron-3-super-120b-a12b",
      "fallback_models": [
        "nreg/qwen3.5-122b-a10b"
      ],
      "prompt_append": ",始终使用中文回复"
    },
    "sisyphus": {
      "model": "nreg/nemotron-3-super-120b-a12b",
      "fallback_models": [
        "nreg/qwen3.5-397b-a17b",
        {
          "model": "nreg/qwen3.5-122b-a10b",
          "variant": "low"
        }
      ],
      "prompt_append": ",始终使用中文回复",
      "ultrawork": {
        "model": "nreg/qwen3.5-397b-a17b",
        "variant": "max"
      }
    },
    "sisyphus-junior": {
      "model": "nreg/nemotron-3-nano-30b-a3b",
      "fallback_models": [
        "nreg/qwen3-coder-30b-a3b-instruct",
        {
          "model": "nreg/qwen3-next-80b-a3b-instruct",
          "variant": "medium"
        },
        {
          "model": "nreg/qwen3-235b-a22b-instruct",
          "variant": "high"
        },
        {
          "model": "nreg/qwen3-coder-480b-a35b-instruct",
          "variant": "xhigh"
        }
      ],
      "prompt_append": ",始终使用中文回复"
    }
  },
  "categories": {
    "artistry": {
      "model": "nreg/nemotron-3-nano-30b-a3b",
      "fallback_models": [
        "nreg/longcat-flash-thinking"
      ]
    },
    "deep": {
      "model": "nreg/qwen3.5-397b-a17b",
      "fallback_models": [
        "nreg/qwen3.5-122b-a10b",
        {
          "model": "nreg/qwen3-next-80b-a3b-instruct",
          "variant": "low"
        },
        {
          "model": "nreg/qwen3-235b-a22b-instruct",
          "variant": "medium"
        },
        {
          "model": "nreg/qwen3-coder-480b-a35b-instruct",
          "variant": "high"
        }
      ]
    },
    "quick": {
      "fallback_models": [
        {
          "model": "nreg/step-3.5-flash",
          "variant": "medium"
        }
      ],
      "model": "nreg/devstral-2-123b-instruct"
    },
    "ultrabrain": {
      "model": "nreg/qwen3-235b-a22b-thinking",
      "fallback_models": [
        "nreg/longcat-flash-thinking",
        {
          "model": "nreg/qwen3-next-80b-a3b-thinking",
          "variant": "low"
        }
      ]
    },
    "unspecified-high": {
      "model": "nreg/qwen3.5-397b-a17b",
      "fallback_models": [
        "nreg/qwen3-next-80b-a3b-instruct",
        {
          "model": "nreg/qwen3-coder-30b-a3b-instruct",
          "variant": "low"
        },
        {
          "model": "nreg/qwen3-235b-a22b-instruct",
          "variant": "medium"
        },
        {
          "model": "nreg/qwen3-coder-480b-a35b-instruct",
          "variant": "high"
        }
      ]
    },
    "unspecified-low": {
      "fallback_models": [
        {
          "model": "nreg/qwen3-coder-30b-a3b-instruct",
          "variant": "low"
        },
        {
          "model": "nreg/qwen3-next-80b-a3b-instruct",
          "variant": "medium"
        },
        {
          "model": "nreg/qwen3-235b-a22b-instruct",
          "variant": "high"
        }
      ],
      "model": "nreg/nemotron-3-nano-30b-a3b"
    },
    "visual-engineering": {
      "model": "nreg/qwen3.5-397b-a17b",
      "fallback_models": [
        {
          "model": "nreg/qwen3.5-122b-a10b",
          "variant": "medium"
        }
      ]
    },
    "writing": {
      "fallback_models": [
        "nreg/longcat-flash-chat"
      ],
      "model": "nreg/longcat-flash-lite"
    }
  }
}

好了小伙伴们,这一套 美团龙猫、英伟达、OpenRouter、魔塔社区 组成的 Free Coding Plan 你们觉得怎么样呢?

4 个赞

有4.7的flash版本了

在杭州都听到你的算盘声了

我知道,测过了,4.7-flash 的 请求速率太低,开发用不了,模型做任务开发时会一直调工具, 比如 grep、read等
4.7-flash 会一直报错,有时候请求不通。

小声说说:文章中的每一家 我都反复测试过了,大概有一两个月我都在找免费的模型,我以前都是舔着脸用 iflow 提供的免费模型 :face_with_peeking_eye: ,用了好长好长时间,我一直都有恃无恐,直到年前 iflow 发表了停止服务的声明,我真就慌了,这几个月一直在找免费的模型,不是我不肯付费,是我失业好长时间了,传统开发不太好找了,工资也很低,AI方面的要求又很高,我最近也只是找了私活在家干干,寥寥碎银几两,勉强过过日子。
其实我对 Iflow 蛮有感情的,我欠她好几个亿tokens

4 个赞

支持辣评吗?不支持的话我下次看到消息立马删掉
1.美团龙猫不好用
2.英伟达反应很慢还经常断
3.openrouter确实不错但是你的会挑模型
4.智谱免费模型,小心把你代码搞坏了
5.魔搭社区讲究的是单次文本对话,快问快答,你可以接到iflow cli里面试试,工具调用都不稳定,经常会出错

综上所述,建议大家尽快购买智谱GLM Pro会员,早买早享受,后期定价会更高,哈哈哈哈哈哈

支持支持,希望听到更多真实的声音 :heart: ,大家也是想听到各家模型的真实使用感受 :heart:

1 个赞

原帖的 硅基流动和讯飞星辰还能用吗?可以在文章顶部补充链接并简单说明原帖的情况

另外补充两方面信息,

IDE

一个是IDE:基本只剩下trae cn了,不过热门模型需要排队,另一个是比较冷门的 通义灵码lingma,lingma基本上就是qoder的cn版本,个人专业版暂时还是限免,而且最近不是发了 Qwen3.6-Plus嘛,估计如果多人用,也会那啥。

还有一个更冷门的 文心快码Comate,现在支持了subagent,还重构了一部分底层,说不定效果还行,不过我就不试了,有lingma也够用了,另外,如果百度的模型抄新模型抄的足够快的话,说不定效果也还过得去?

我现在不倾向于使用IDE,因为我发现这些厂商写的系统提示词和agent编排水平和iflow比起来简直一个天一个地,需要热门模型的能力来抵消负面干扰。

CLI/API

opencode 有免费模型,而且提供api( Zen | OpenCode),应该是稳定的,用户量很大,而且我注意到付费模型的价格是刀乐单位,而且不抵,说明平台是有实力支撑免费模型的,可以补充测评这个平台。

zen免费模型清单:

  • Grok Code Fast 1:在免费期间,收集的数据可能用于改进 Grok Code。
  • GLM 4.7:在免费期间,收集的数据可能用于改进模型。
  • MiniMax M2.1:在免费期间,收集的数据可能用于改进模型。
  • Big Pickle:在免费期间,收集的数据可能用于改进模型。

不知道说啥 希望你未来一切顺利 :beating_heart:

总感觉现状不会持续太久的时间,不然这么多开发者再回到手搓吗…

2 个赞

讯飞星辰:那两个能用来开发的已经下架了(Qwen3.5-35B-A3B,Qwen3-Coder-Next-FP8),它把这两原来免费的现在搞成CodingPlan了,3块5一个月,但是吧 你可以可以看看这个帖子:讯飞星辰 从 TokenPlan 转为 CodingPlan -套餐上新实况 - AI摸鱼船 - 心流AI交流社区

还能用的只有(Qwen3-1.7B、Qwen3.5-2B),但是开发上用不了,上下文都只有32K,把它放在代码搜索智能体上都不适合,会一直触发自动压缩…

硅基流动:是我之前测试失误,我之前帖子中的表格写的很明确TPM是5万到8万,而我们开发任务 会有上下文、系统提示词、tools工具定义等等,几乎每个请求在 7万 tokens 以上(OMO几乎在11W左右),因此硅基流动是用不了的,这也是在我后来的测试中深有体会,之前之所以测试失误,是因为它很多模型和别的几家重名了,负载均衡没怎么触发到它,后来我知道后 我是专门挨个家测试的

opencode zen 的免费模型,我个人体验是会经常触发限流。我在之前的帖子中也提到过它。

opencode go 套餐价格虽然高,但确实是可以信任的,它的模型是在开发方面专门训练过的

PS:
在请求的tokens消耗上 OMO是出了名的消耗大,因此也就有了 oh-my-opencode-slim,
相关文章:
OpenCode-OhMyOpenCode-Slim-功能对比与选型指南_oh-my-opencode-slim-CSDN博客
什么?oh-my-opencode 太重了?那试试 oh-my-opencode-slim - 知乎

袋鼠的龙猫没用过,其他的感觉coding都不太行啊

实践出真知,测一遍才知道哦

免费的我只用trae了

trae不是按量计费吗

国内版吧

有意思的是我在qwenpaw里调用魔搭社区的glm-5、qwen3.5都能顺畅,工具调用也没问题,不知道是不是优化过了

感谢最新消息 :rose: ,我刚测了一下 魔塔社区的 ZhipuAI/GLM-5 现在确实可用。

官方在文档中 请求限制部分 说明:单模型每日使用额度,这个额度是动态的,会根据资源、使用情况等因素动态调整。

glm-5 作为主流模型,很多人用,我 推测 在动态调整上 幅度是比较大的,在我之前的测试中,对于主流模型的测试 验证了我的 推测,遇到了很多问题,以下是之前的测试日志:(4月9号)

错误1:明明模型还有额度,但报错达到速率限制

响应首部: {
  "access-control-allow-credentials": "true",
  "access-control-allow-headers": "DNT,Keep-Alive,User-Agent,X-Requested-With,If-Modified-Since,Cache-Control,Content-Type,Range,Authorization",
  "access-control-allow-methods": "OPTION,HEAD,GET,POST",
  "access-control-allow-origin": "*",
  "access-control-max-age": "1728000",
  "cache-control": "no-cache",
  "connection": "keep-alive",
  "content-length": "150",
  "content-type": "application/json",
  "date": "Thu, 09 Apr 2026 06:35:47 GMT",
  "document-policy": "include-js-call-stacks-in-crash-reports",
  "modelscope-ratelimit-model-requests-limit": "100",  // 模型当天限额
  "modelscope-ratelimit-model-requests-remaining": "96", // 模型当天剩余额度
  "modelscope-ratelimit-requests-limit": "2000", // 用户当天限额
  "modelscope-ratelimit-requests-remaining": "1982", // 用户当天剩余额度
  "strict-transport-security": "max-age=15724800; includeSubDomains"
}
响应内容: {
  "error": {
    "code": "1302",
    "message": "您的账户已达到速率限制,请您控制请求频率"
  },
  "request_id": "9a10471f-00e1-4cd2-847a-ab40c586a19a"
}

错误2:支持 api 免费体验的模型还受模型官方付费的限制

响应内容: {
  "error": {
    "code": "insufficient_quota",
    "message": "You exceeded your current quota, please check your plan and billing details. For details, see: https://help.aliyun.com/zh/model-studio/error-code#token-limit",
    "param": null,
    "type": "insufficient_quota"
  },
  "request_id": "95d8098d-cd6b-49f5-b862-f6164e3ffbda"
}

错误3:支持api免费体验的模型还会报错余额不足 (这种错误 我真的无法理解)

响应首部: {
  "access-control-allow-credentials": "true",
  "access-control-allow-headers": "DNT,Keep-Alive,User-Agent,X-Requested-With,If-Modified-Since,Cache-Control,Content-Type,Range,Authorization",
  "access-control-allow-methods": "OPTION,HEAD,GET,POST",
  "access-control-allow-origin": "*",
  "access-control-max-age": "1728000",
  "cache-control": "no-cache",
  "connection": "keep-alive",
  "content-length": "147",
  "content-type": "application/json",
  "date": "Thu, 09 Apr 2026 06:44:41 GMT",
  "document-policy": "include-js-call-stacks-in-crash-reports",
  "modelscope-ratelimit-model-requests-limit": "100",
  "modelscope-ratelimit-model-requests-remaining": "98",
  "modelscope-ratelimit-requests-limit": "2000",
  "modelscope-ratelimit-requests-remaining": "1977",
  "strict-transport-security": "max-age=15724800; includeSubDomains"
}
响应内容: {
  "error": {
    "code": "402",
    "message": "Insufficient account balance",
    "type": "insufficient_balance"
  },
  "request_id": "cfb18d3b-d5b4-4d70-846d-1da55744fa88"
}
1 个赞

那个不适合开发的 meta/1lama-4-maverick-17b-128e-instruct 实际测试没有1m上下文(贴子已经更正)


(本来是在OpenCode的Agent的配置中让它充当 压缩 和 摘要 智能体的,一连报错发现它并没有1m上下文)

美团龙猫的 longcat-flash-omni 不适合开发,会报错:Json 格式错误??

魔塔的 Qwen/Qwen3-Coder-30B -A3B-Instruct 大概是不能免费调用了,1次都没成功过
(更正:是我另一个账号的api_key设置错了,之前是只读的好用,设置成可写的就不能用了,与模型无关)

OpenCode 的 Sisyphus-Junior 子代理执行器 最近会经常报错:Expected ‘id’ to be a string.
已验证 不是 模型的问题,下图是不同模型的报错:(OC 或 OMO 的BUG)

OpenCode 和 OMO 配置已更新。

没一个好用的 尤其是写代码上. 免费也就是各种编辑器上带的,opencode 其他旧算了. 有那功夫不如自己看看代码

3 个赞

请问为什么我的cc switch和你的界面不一样啊,没有你这么多的配置项

社区就是需要你这种人 :100:

1 个赞