Free Coding Plan

10012174052 · 2026 年4 月 16 日 08:09

一、Free Coding Plan 模型列表

1、美团龙猫

每天5000W lite + 500W thinking tokens**

用量看板：https://longcat.chat/platform/usage

baseUrl：https://api.longcat.chat/openai （Anthropic格式：https://api.longcat.chat/anthropic）

LongCat-Flash-Lite 每天独享5000W tokens，其它模型共享每天50W，但通过申请可提升到每天500W
速率限制仅仅只是用量限制，没有 QPS、QPM|RPM、TPM!
小声说：申请随便写写，半小时内一定能给你提升到 500W，2个账号注意不要写同一家公司

网上对这几个模型吹得很历害：美团 lite、thinking 模型是对标 Claude Opus 的！
一起来看一下吧！
6：LongCat-Flash-Lite 无思考MoE模型：68.5B总参数的高效大语言模型解决方案 - 安全风信子 - 博客园

LongCat-Flash-Thinking 正式发布，更强、更专业，保持极速！ - 美团技术团队

LongCat-Flash-Omni正式发布并开源：开启全模态实时交互时代 - 美团技术团队

模型列表：

模型id	模型别名	描述	最大输出	上下文	请求限制
LongCat-Flash-Chat	longcat-flash-chat	高性能通用对话模型	256k	256k	共享500W/天
LongCat-Flash-Omni-2603	longcat-flash-omni	多模态模型,创新性集成了高效多模态感知模块与语音重建模块。即便在总参数 5600 亿（激活参数 270 亿）的庞大参数规模下，仍实现了低延迟的实时音视频交互能力，为开发者的多模态应用场景提供了更高效的技术选择。	8k		共享500W/天
LongCat-Flash-Thinking	longcat-flash-thinking	在逻辑、数学、代码、智能体等多个领域的推理任务中，达到了全球开源模型的最先进水平（SOTA）。通用推理能力在 ARC-AGI 基准测试中以 50.3 分超越 OpenAI o3、Gemini2.5 Pro 等顶尖闭源模型，ATP 形式推理能力在 MiniF2F-test 基准中的 pass@1 获得 67.6 的分数，大幅领先所有其他参与评估的模型。代码能力在LiveCodeBench 上以 79.4 分显著超越参与评估的开源模型，对标GPT-5,在 OJBench 基准测试中以 40.7 的得分接近 Gemini2.5-Pro 的水平。每秒44 tokens的吞吐率（TPS）。每秒44 tokens的吞吐率（TPS）。	256k	256k	共享500W/天
LongCat-Flash-Lite	longcat-flash-lite	高效轻量化MoE模型，总参数量68.5B，激活3B，无思考在智能体和代码任务上进行了专门优化：优化智能体的推理和决策能力，提升代码理解和生成能力，增强复杂逻辑推理能力，优化多步骤任务的处理能力。相当快：每秒175 tokens的吞吐率（TPS）	320k	256k	5000W/天

不瞒你们说，我已经偷偷用了一个周了(2个号负载均衡)，用得不错才来分享的，lite模型在 Librarian 和 Explore 角色上没有问题（最大输出320k, 250k上下文），thinking模型指令遵循上很不错

thinking模型我没有设置最大思维链。

2、NVIDIA 确实很大方！

登录→短信验证时不要选择地区，把 +1 改成 +86 后面跟手机号即可，

请求限制：RPM：40 (实际测试约数，我是用3个号做的负载均衡，因此开发上没卡过)

模型列表：https://build.nvidia.com/models?orderBy=name%3AASC&filters=nimType%3Anim_type_preview

apiKey 申请：https://build.nvidia.com/settings/api-keys

在之前的帖子中我对它的评测不足，因为我只测了主流模型，但确实主流的模型基本都用不了（响应慢到超时），现在我把所有文本模型都测了：（其中的”绝对快“，并非吞吐率TPS，而是响应快，吞吐率下方表格中我也测了）

目前能用的：（这不是图片，这是表格，你可以点击右上角全屏查看，复制粘贴拿走~~）

模型id	模型别名	描述	最大输入	最大输出	最大思维链长度	上下文	类型	TPS
deepseek-ai/deepseek-v4-pro	deepseek-v4-pro	Agentic Coding 模型，据评测反馈使用体验优于 Sonnet 4.5，交付质量接近 Opus 4.6 非思考模式，但仍与 Opus 4.6 思考模式存在一定差距。针对 Claude Code 、OpenClaw、OpenCode、CodeBuddy 等主流的 Agent 产品进行了适配和优化。	-	384k	-	1m	文本	每秒26 tokens
nvidia/nemotron-3-super-120b-a12b	nemotron-3-super-120b-a12b	一款 120B 参数的开放混合 MoE 模型，激活 12B 参数，编程适用：复杂多步骤任务，需要深度规划与推理的复杂编码任务。需指定思维链长度16384(官方示例中的)，否则会过度思考		64k	16k	1000k		-
mistralai/devstral-2-123b-instruct-2512	devstral-2-123b-instruct	Mistral AI 开发的开源智能体编码模型，123B参数密集Transformer模型。支持代码库探索、跨多文件编排更改、跟踪框架依赖、检测故障并重试修正。在 SWE-bench、编码、工具调用和智能体用例方面达到SOTA水平。	262k	65k	-	256K	文本	每秒53 tokens
nvidia/nemotron-3-nano-30b-a3b	nemotron-3-nano-30b-a3b	30 B 参数的混合 Mixture‑of‑Experts（MoE）模型，采用 Mamba‑2 与 Transformer 组合，Mamba-2 混合架构在长序列建模上的有效性，使其各项能力领先同等规模（30b-a3b）模型30%左右，代码能力 HumanEval 得分 78.05%。支持思考。不需要指定思维链长度	-	32k	-	256k	文本,思考	每秒228 tokens
qwen/qwen3-next-80b-a3b-instruct	qwen3-next-80b-a3b-instruct	阿里巴巴开发的混合专家（MoE）架构大语言模型，总参数800亿，激活参数约30亿，原生支持262144 tokens上下文长度，支持中文深度优化和企业级安全功能。	256k	16k	-	256k	文本	每秒90 tokens
stepfun-ai/step-3.5-flash	step-3.5-flash	Step 3.5 Flash 是 StepFun 最强大的开源基础模型。基于稀疏混合专家（MoE）架构，每令牌仅激活其 1960 亿参数中的 110 亿参数。SWE-bench Verified 取得 74.4%，Terminal-Bench 2.0取得 51.0%，xbench-DeepSearch（2025.05）评测中获得83.7分，证明其在复杂编程和命令行任务中的强大能力。建议指定思维链长度，否则复杂任务思考时长会长达6分钟	256k	66k	-	256k	文本	每秒50 tokens
minimaxai/minimax-m2.5	minimax-m2.5	原生 Spec 能力（在编码前自动拆解需求，生成架构图与功能模块规划，接近人类架构师思维）工具调用增强，多编程语言支持（代码生成质量接近生产级）编程效率对标 GPT-4 Turbo。建议指定思维链长度，否则复杂任务思考时长会长达30多秒。	192k	128k	-	200k	文本,思考	-
openai/gpt-oss-120b	gpt-oss-120	gpt-oss-120b 是 OpenAI 推出的开源权重、1170 亿参数的混合专家（MoE）语言模型，专为高推理、智能体和通用生产用例而设计。每次前向传递激活 51 亿参数，并针对单个 H100 GPU 运行进行了优化，支持原生 MXFP4 量化。性能表现超越 OpenAI o3‑mini，对标 OpenAI o4-mini 。不需要指定思维链长度	128k	4k	-	128k	文本,思考	每秒214 tokens

上述 deepseek-v4-pro 不是很稳定：auth_unavailable: no auth available (providers=nvidia, model=deepseek-v4-pro)
还有3个也能用，响应快，但是吞吐率TPS很低：

模型id	模型别名	描述	最大输入	最大输出		上下文	类型
abacusai/dracarys-llama-3.1-70b-instruct	dracarys-llama-3.1-70b-instruct	基于 Llama-3.1-70B-Instruct 的指令微调版本，由 Abacus.ai 优化。具备多语言理解与生成能力，特别针对复杂推理、代码生成、数学问题等场景优化。保留原生 Llama 3.1 的高性能，同时通过指令微调增强交互体验。很慢：每秒12 tokens的吞吐率（TPS）	128k	8k		128k	文本
deepseek-ai/deepseek-v3.1	deepseek-v3.1	相比上一版解决了一系列问题：语言一致性：缓解了中英文混杂、偶发异常字符等情况；Agent 能力：进一步优化了 Code Agent 与 Search Agent 的表现，每秒22 tokens的吞吐率（TPS）	96k	64k	-	128k	文本
moonshotai/kimi-k2-instruct	kimi-k2-instruct	基于 DeepseekV3 架构的稠密-稀疏混合专家语言模型，总参数 1T、激活 32B，采用 MLA 注意力+ SwiGLU 激活；原生 FP8 量化，支持工具调用与长文档分析；在 vLLM、SGLang 上可直接部署，兼顾高精度与高效推理。每秒16 tokens的吞吐率（TPS）	128k	4k	-	128k	文本

3、OpenRouter

需要充值10美元才能 1000次/天调用，否则只能50次/天，调用免费模型还有个限制：QPM：20（每分钟最多请求20次）

免费额度：每天 50 次。充值10美元才能 1000次/天调用，且 RPM + 10

速率限制：每分钟 20 个请求。账户积分数量 = 每秒请求数。RPM:20

对充值后一年后还没用的 Credits 不会做过期处理，官方在邮件里已经承诺

免费模型列表：https://openrouter.ai/models?fmt=cards&max_price=0&output_modalities=text

10万积分网络搜索免费送：https://openrouter.ai/workspaces/default/byok?tab=web-search

用量看板：https://openrouter.ai/activity

模型id中 **带 :free 是永久免费的，官方文档中有说明。**模型id不带:free 但是价格免费的，都是限时免费，比如之前的 qwen3.6-plus 已经没了。

对充值后一年后还没用的 Credits 不会做过期处理，官方在邮件里已经承诺，这个你们不用担心，我已经截图:（我两个号各充了10美元 → ￥148.38**）**

我测试了它所有免费模型（文本类），它的免费模型很少，真的很少，而且和 NVIDIA 一样，主流模型基本不能用，会直接报 429 请求速率限制，哪怕你是开号第1次请求
目前能用的只有3个：

模型id	模型别名	描述	最大输入	最大输出	最大思维链长度	上下文	类型
nvidia/nemotron-3-super-120b-a12b:free	nemotron-3-super-120b-a12b	一款 120B 参数的开放混合 MoE 模型，激活 12B 参数，编程适用：复杂多步骤任务，需要深度规划与推理的复杂编码任务。需指定思维链长度16384，否则会过度思考		64k	16k	1000k
nvidia/nemotron-3-nano-30b-a3b:free	nemotron-3-nano-30b-a3b	30 B 参数的混合 Mixture‑of‑Experts（MoE）模型，采用 Mamba‑2 与 Transformer 组合，Mamba-2 混合架构在长序列建模上的有效性，使其各项能力领先同等规模（30b-a3b）模型30%左右，代码能力 HumanEval 得分 78.05%。支持思考，不需要指定思维链长度		32k	-	256k	文本,思考
openai/gpt-oss-120b:free	gpt-oss-120b	gpt-oss-120b 是 OpenAI 推出的开源权重、1170 亿参数的混合专家（MoE）语言模型，专为高推理、智能体和通用生产用例而设计。每次前向传递激活 51 亿参数，并针对单个 H100 GPU 运行进行了优化，支持原生 MXFP4 量化。性能表现超越 OpenAI o3‑mini，对标 OpenAI o4-mini	128k	4k	-	128k	文本

4、魔塔社区

需关联阿里云账号，每天2000次免费调用，单个模型有额外上限

apiKey创建：https://www.modelscope.cn/my/access/token

baseUrl：https://api-inference.modelscope.cn/v1 （ Anthropic 不需要加后缀 /v1）

在之前的帖子中我也是对它的评测不足，因为我只测了主流模型，但确实主流的模型基本都用不了（明明隔了一天都没用，就直接报429 请求速率限制）
但同样地，非主流模型可用于开发的也是不少的：（kimi-k2.5除外，我实在不能不用）
我测了所有文本模型（上下文少于128k的除外），能用的如下：

qwen3-14b 必须指定 maxTokens 为8192，否则会报错
qwen3-235b-a22b-thinking 必须指定上下文 content 为 126976，否则会报错
不能用：glm-5，glm-4.7，glm-4.6，glm-4.5，DeepSeek-R1-Distill-Llama-70B
可用但低智：Qwen3-30B-A3B-Instruct、Qwen3-30B-A3B-Thinking
速率（TPS）低：Qwen/Qwen3.5-27B、qwen3.5-397b-a17b

模型ID	模型别名	描述	最大输入	最大输出	最大思维链长度	上下文	类型	TPS
MiniMax/MiniMax-M1-80k	minimax-m1	MiniMax-M1 是一款开源的超大规模语言模型，拥有约 4560 亿总参数，激活约 45.9 亿参数，采用混合专家（MoE）架构、Flash Attention 和 CISPO 优化算法，支持最高 100 万 token 的输入上下文和最高 80 k token 的输出，实现高效长上下文推理。	1000k	80k	-	1m	文本，思考	每秒11 tokens
Qwen/Qwen3-Coder-480B-A35B-Instruct	qwen3-coder-480b-a35b-instruct	由 Qwen 团队开发的混合专家（MoE）代码生成模型。它针对智能体编码任务进行了优化，例如函数调用、工具使用和仓库的长上下文推理。该模型总参数量为 4800 亿，每次前向传递激活 350 亿参数（160 个专家中的 8 个）。推荐采样参数：temperature=0.7, top_p=0.8, top_k=20, repetition_penalty=1.05	200k	64k	-	256k	文本.	每秒96 tokens
Qwen/Qwen3-Coder-30B-A3B-Instruct	qwen3-coder-30b-a3b-instruct	305 亿参数混合专家（MoE）模型，含 128 个专家网络，每次前向激活约33 亿参数，由阿里巴巴通义千问团队开发，专用于高级代码生成与仓库级理解 • 在Agentic Coding、Agentic Browser-Use等复杂任务表现优异，支持函数调用、工具集成与结构化输出，编码基准测试准确率89%，数学准确率89%，伦理推理准确率*98% ，适合开发者进行大规模代码重构、API 集成、测试生成等场景。	126k	32k	-	256k	文本	每秒79 tokens
Qwen/Qwen3-Next-80B-A3B-Instruct	qwen3-next-80b-a3b-instruct	Qwen3-Next 系列中的指令调优聊天模型，针对快速、稳定的响应进行了优化，不会留下“思考”痕迹。它面向推理、代码生成、知识问答和多语言使用的复杂任务，同时在对齐和格式化方面保持稳健。	126k	64k	-	256k	文本	每秒231 tokens
Qwen3-Next-80B-A3B-Thinking	qwen3-next-80b-a3b-thinking	智谱AI推出的一系列超大规模语言模型中的一个，具备800亿参数量（实际激活为30亿），它通过混合注意力机制、高稀疏性的Mixture-of-Experts (MoE) 和多令牌预测 (MTP) 等创新技术，提升推理效率并优化长上下文处理能力。该模型专门支持“思考模式”（Thinking Mode），在复杂推理任务中表现出色，被证明在多个基准测试中优于之前的版本和其它开源模型。	126k	64k	-	256k	文本，思考	-
Qwen/Qwen3.5-122B-A10B	qwen3.5-122b-a10b	Qwen3.5系列122B-A10B原生视觉语言模型，基于混合架构设计，融合了线性注意力机制与稀疏混合专家模型，实现了更高的推理效率。该模型的综合表现仅次于Qwen3.5-397B-A17B，文本能力显著优于Qwen3-235B-2507，视觉能力优于Qwen3-VL-235B。	254k	64k	80k	256k	思考、文本、视觉	每秒88 tokens
Qwen/Qwen3-235B-A22B-Thinking-2507	qwen3-235b-a22b-thinking	主要增强功能如下：在推理任务上的性能显著提高，包括逻辑推理、数学、科学、编码和通常需要人类专业知识的学术基准——在开源思维模型中取得最先进的成果。明显更好的通用能力，例如指令遵循、工具使用、文本生成和与人类偏好的一致性。增强了256K长上下文理解能力。	124k	32k	80k	256k	文本,思考	每秒53 tokens
Qwen/Qwen3-235B-A22B-Instruct-2507	qwen3-235b-a22b-instruct	Qwen3-235B-A22B 是 Qwen 系列中最新一代大型语言模型，提供全面的密集模型和混合专家 (MoE) 模型。Qwen3 基于丰富的训练经验，在推理、指令遵循、代理能力和多语言支持方面取得了突破性进展。	124k	32k	-	256k	文本	每秒59 tokens
stepfun-ai/Step-3.5-Flash	step-3.5-flash	Step 3.5 Flash 是 StepFun 最强大的开源基础模型。基于稀疏混合专家（MoE）架构，每令牌仅激活其 1960 亿参数中的 110 亿参数。它是一个推理模型，即使在长上下文中也具有极高的速度效率。相对其他大模型提供商仅开源基础模型，而Step 3.5 Flash 允许开发者直接调用中训练阶段的专项能力模块（如代码生成、工具调用），使模型定制化效率提升40%。在专业评测中，SWE-bench Verified 取得 74.4%，Terminal-Bench 2.0取得 51.0%，xbench-DeepSearch（2025.05）评测中获得83.7分，证明其在复杂编程和命令行任务中的强大能力。	256k	66k	-	256k	文本，图像	每秒550-760 tokens
moonshotai/Kimi-K2.5	kimi-k2.5	Kimi K2.5 在 Agent、代码、视觉理解及一系列通用智能任务上取得开源 SoTA 表现。同时 Kimi K2.5 也是 Kimi 迄今最全能的模型，原生的多模态架构设计，同时支持视觉与文本输入、思考与非思考模式、对话与 Agent 任务。实测测试请求限制太高经常报错，约50次/天	224k	16k	-	256k	多模态	每秒43 tokens
MiniMax/MiniMax-M2.5	minimax-m2.5	原生 Spec 能力（在编码前自动拆解需求，生成架构图与功能模块规划，接近人类架构师思维）工具调用增强，多编程语言支持（代码生成质量接近生产级）编程效率对标 GPT-4 Turbo。在SWE-Bench验证中获得80.2%，Multi-SWE-Bench中51.3%，BrowseComp（含上下文管理）中得分76.3%。经过训练，M2.5 能够高效推理并优化任务分解，在执行复杂智能体任务时表现出极高的速度，完成 SWE-Bench Verified 评估比 M2.1 快 37%，与 Claude Opus 4.6 的速度相当。建议指定思维链长度，否则复杂任务思考时长会长达30多秒。	192k	16k	-	200k	文本	每秒77 tokens
Qwen/Qwen3-235B-A22B	qwen3-235b-a22b	Qwen 系列中最新一代大型语言模型，提供全面的密集模型和混合专家 (MoE) 模型。Qwen3 基于丰富的训练经验，在推理、指令遵循、代理能力和多语言支持方面取得了突破性进展。	126k	16k	38k	128k	文本,思考	每秒36 tokens
Qwen/Qwen3-14B	qwen3-14b	Qwen3-14B是由阿里云开发的大型语言模型，具有14.8B的参数量，其中13.2B为非嵌入参数，训练数据量显著提升。相比Qwen2.5 instruct模型，其显著增强了推理、代码生成和智能体任务的表现。Qwen3-14B支持思维模式和非思维模式，非思考模式下表现与Qwen2.5相当，思考模式下超越QwQ-32B。并且在多语言支持和指令遵循方面表现出色。	32k	8k	-	128k	文本	每秒54 tokens

5、智谱

apiKey查看：智谱AI开放平台

baseUrl：https://api.z.ai/api/paas/v4

模型列表：https://bigmodel.cn/console/modelcenter/square

免费模型列表：https://docs.bigmodel.cn/cn/guide/models/free

用量余额：https://bigmodel.cn/finance-center/resource-package/package-mgmt

智谱说实话，只有1个模型可用：glm-4-fash，但为了做对比，我还是做个表格，其中黑色粗体进行了说明

模型id	说明	模型别名	最大输入	最大输出	上下文	最大思维链长度	类型	请求限制	限量
glm-4.1v-thinking-flash	在图表/视频理解、前端 Coding、GUI 任务等场景表现出色，核心能力达到全面新 SOTA。模型引入思维链推理机制，显著提升了复杂场景中的回答精准度与可解释性。不支持工具调用导致经常报错	glm-4.1v-thinking-flash	-	-	-	-	多模态	QPS：5	免费
glm-4-flash	在实时网页检索、长上下文处理、多语言支持等方面表现出色，适用于智能问答、摘要生成和文本数据处理等多种应用场景。适用于写作建议（情节构思、文字润色、推文、文案）、多语言翻译、结构化数据处理	glm-4-flash	-	16k	128k	-	文本	QPS：200	免费
glm-4-flash-250414	- 每次请求都报错	glm-4-flash	-	16k	128k	-	文本	QPS：5	免费

三方文档：

GLM-4.1V-Thinking - 智谱AI开源的视觉语言模型系列 | AI工具集

GLM-4-Flash：智谱AI推出的首个免费API服务，支持128K上下文 - AIHub

二、多账号负载均衡工具

1、Simple-One-Api：

基于GO，one-api 减法，非常推荐

开源地址：https://github.com/fruitbars/simple-one-api

介绍：https://mp.weixin.qq.com/s/ykhTXV0ynmtnkOwNYU3yGQ

推荐用我的，我对它进行了一些修复，提了PR，但是还没有响应
nreg/simple-one-api-fix-cozecn: 修复 cozecn_v3 思考模型 reasoning_content 流式响应

2、CLIProxyAPI：

基于GO，非常推荐

开源地址：https://github.com/router-for-me/CLIProxyAPI

文档地址：https://help.router-for.me/cn/configuration/basic.html

介绍：https://jishuzhan.net/article/2019240010068312066

PS：

这类工具还是蛮多的，我个人只是用了上面2个，非常好上手，当前在用的是带界面的 CLIProxyAPI，不带界面的 Simple-One-Api 可以转发扣子编程，不过我测了扣子编程确实可以做个智能体，然后 bot_id 做模型id，个人访问令牌做 api_key 可以实现外部 api 请求，但是对于我们开发来说，有一个痛点，它是智能体，它只能用智能体编程界面的 ”插件“ 做 tools 参数，也就是说 IDE开发工具里的 MCP 它调不了，它会以它的插件覆盖掉上送的 tools 参数（Simple-One-Api 的 cozecn_v3 的代码我加上了tools参数，但是无论工作流智能体还是单 agent 智能体都不能使用 tools 参数，导致智能体不能调用外部工具，只能使用扣子平台的插件）。

3、类似的工具：

LiteLLM：统一模型服务接口的Python代理库，25k star
开源地址：https://github.com/BerriAI/litellm

官网：https://github.com/BerriAI/litellm

标准版： https://docs.litellm.ai/

中文版： https://docs.litellm.com.cn/
介绍：
https://mp.weixin.qq.com/s/4W3f3kDSHOL3tKlRNic-Eg
https://mp.weixin.qq.com/s/-N6lMPd4YV5fT2IRZ0Codw

any-llm：统一模型服务接口的Python代理库

开源地址：https://github.com/mozilla-ai/any-llm

介绍：https://mp.weixin.qq.com/s/npUCsz0qoQXK0sAiMjZSWQ

**one-api：**基于GO

开源地址：https://github.com/songquanpeng/one-api

介绍：
https://mp.weixin.qq.com/s/1I9YqUj-7mq9MBsiBeOmHA
https://mp.weixin.qq.com/s/_2p8Srx2tY3FhUDJfnSanw

new-api:（基于GO，one-api 加法）
开源地址：https://github.com/QuantumNous/new-api

介绍：https://mp.weixin.qq.com/s/oO8w5kdqIaDzOuykVtIwaA

4、工具对比

项目	类型	技术栈	复杂度	核心优势	适用对象或场景	关键功能
One-API	全功能 API 网关	Go [1]	高	统一接口，一套代码调用多服务商，简化维护；高性能（Go 语言），开箱即用的 UI 专注于运营和管理 [1]。	需要商业化分发和成本控制的团队 [1]。	- 统一 OpenAI 格式接口 - 多渠道负载均衡与失败重试 - 用户/密钥分发 - 预算控制与额度管理 - 支持多机部署 [1]
Simple-One-API	轻量级 API 适配工具 (无Web UI，配置文件驱动)	Go [4]	低	极简专注，开箱即用，特别优化国产免费模型 [4]。	个人开发者、快速原型验证 [4]。	- 兼容多种国产大模型 - 随机负载均衡 - 独立配置各服务的并发/QPS - 支持为每个服务配置代理 [4]
CLIProxyAPI	轻量级 API适配提供商授权 (含Web UI，配置文件驱动)	Go [4]	低	极简专注，开箱即用，特别优化提供商授权	个人开发者、快速原型验证	- 独立配置各服务的并发/QPS - 支持为每个服务配置代理 - 多key统一配置
New-API	增强版 API 网关	Java (Spring Boot) [2]	很高	在 One-API 基础上，提供更强的格式转换能力和更多前沿模型支持 [2]。	需要 One-API 功能并追求更多高级特性和前沿模型支持的高级用户、团队或公司内部平台 [2]。	- 完全兼容 One-API 功能 - 高级 API 格式转换 (OpenAI<->Claude等) - 支持 Midjourney, Suno 等新服务 - 现代化 UI 与多语言 - 丰富第三方登录 [2]
LiteLLM	Python SDK / 可选代理服务器	Python [5]	中	模型支持最广（100+），开发者体验极佳，与 Python 生态无缝集成；代理服务器功能强大，支持虚拟密钥、成本跟踪、负载均衡等 [5]。	Python 应用开发者 [5]。	- 库模式统一调用 - 代理模式部署独立网关 - 支持100+模型 [5]
any-llm	Python SDK (用于开发)	Python [3]	低	轻量级，通过利用官方提供商 SDK 来保证兼容性和可靠性；无需代理或网关服务器，直接与 LLM 提供商通信，降低延迟和数据泄露风险 [3]。	希望在代码层面快速切换不同模型、进行原型开发或模型比较的 Python 开发者 [3]。	- 统一接口调用 OpenAI, Mistral, Anthropic 等主流提供商 - 使用官方 SDK 确保兼容性 - 无代理依赖，直接通信 - 响应格式标准化 [3]

三、附录

下面是我个人的配置参考就好哈，可以拿去直接体验~

1、OpenCode 配置：

{
  "$schema": "https://opencode.ai/config.json",
  "plugin": [
    "oh-my-openagent@latest"
  ],
  "watcher": {
    "ignore": [
      "node_modules/**",
      "dist/**",
      ".git/**",
      ".gitnexus/**",
      ".idea/**"
    ]
  },
  "agent": {
    "compaction": {
      "mode": "primary",
      "model": "nreg/nemotron-3-super-120b-a12b"
    },
    "summary": {
      "mode": "primary",
      "model": "nreg/nemotron-3-super-120b-a12b"
    },
    "title": {
      "mode": "primary",
      "model": "nreg/longcat-flash-lite"
    }
  },
  "provider": {
    "nreg": {
      "npm": "@ai-sdk/openai-compatible",
      "name": "nreg",
      "options": {
        "baseURL": "http://192.168.1.108:9090/v1",
        "apiKey": "sk-000111222333444555666777888999"
      },
      "models": {
        "longcat-flash-lite": {
          "name": "longcat-flash-lite",
          "limit": {
            "context": 256000,
            "output": 320000
          },
          "modalities": {
            "input": [
              "text"
            ],
            "output": [
              "text"
            ]
          }
        },
        "longcat-flash-omni": {
          "name": "longcat-flash-omni",
          "limit": {
            "context": 128000,
            "output": 8000
          },
          "modalities": {
            "input": [
              "text",
              "image"
            ],
            "output": [
              "text"
            ]
          }
        },
        "nemotron-3-nano-30b-a3b": {
          "name": "nemotron-3-nano-30b-a3b",
          "limit": {
            "context": 1048576,
            "output": 128000
          },
          "modalities": {
            "input": [
              "text"
            ],
            "output": [
              "text"
            ]
          }
        },
        "qwen3-235b-a22b-instruct": {
          "name": "qwen3-235b-a22b-instruct",
          "limit": {
            "context": 256000,
            "output": 32000
          },
          "modalities": {
            "input": [
              "text"
            ],
            "output": [
              "text"
            ]
          }
        },
        "qwen3-coder-30b-a3b-instruct": {
          "name": "qwen3-coder-30b-a3b-instruct",
          "limit": {
            "context": 256000,
            "output": 32000
          },
          "modalities": {
            "input": [
              "text"
            ],
            "output": [
              "text"
            ]
          }
        },
        "qwen3-coder-next": {
          "name": "qwen3-coder-next",
          "limit": {
            "context": 256000,
            "output": 64000
          },
          "modalities": {
            "input": [
              "text"
            ],
            "output": [
              "text"
            ]
          }
        },
        "qwen3-next-80b-a3b-thinking": {
          "name": "qwen3-next-80b-a3b-thinking",
          "limit": {
            "context": 129024,
            "output": 16000
          },
          "options": {
            "thinking": {
              "budgetTokens": 20480,
              "type": "enabled"
            }
          },
          "modalities": {
            "input": [
              "text"
            ],
            "output": [
              "text"
            ]
          }
        },
        "hunyuan-lite": {
          "name": "hunyuan-lite",
          "limit": {
            "context": 256000,
            "output": 6000
          },
          "modalities": {
            "input": [
              "text"
            ],
            "output": [
              "text"
            ]
          }
        },
        "qwen3-235b-a22b-thinking": {
          "name": "qwen3-235b-a22b-thinking",
          "limit": {
            "context": 126976,
            "output": 32000
          },
          "options": {
            "thinking": {
              "budgetTokens": 20480,
              "type": "enabled"
            }
          },
          "modalities": {
            "input": [
              "text"
            ],
            "output": [
              "text"
            ]
          }
        },
        "step-3.5-flash": {
          "name": "step-3.5-flash",
          "limit": {
            "context": 256000,
            "output": 67584
          },
          "modalities": {
            "input": [
              "text",
              "image"
            ],
            "output": [
              "text"
            ]
          },
          "thinking": {
            "budgetTokens": 20480,
            "type": "enabled"
          }
        },
        "glm-4-flash": {
          "name": "glm-4-flash",
          "limit": {
            "context": 128000,
            "output": 32000
          },
          "modalities": {
            "input": [
              "text"
            ],
            "output": [
              "text"
            ]
          }
        },
        "gpt-oss-120b": {
          "name": "gpt-oss-120b",
          "limit": {
            "context": 128000,
            "output": 4000
          },
          "options": {
            "thinking": {
              "budgetTokens": 8000,
              "type": "enabled"
            }
          },
          "modalities": {
            "input": [
              "text"
            ],
            "output": [
              "text"
            ]
          }
        },
        "glm-z1-9b": {
          "name": "glm-z1-9b",
          "limit": {
            "context": 128000,
            "output": 32000
          },
          "options": {
            "thinking": {
              "budgetTokens": 20480,
              "type": "enabled"
            }
          },
          "modalities": {
            "input": [
              "text"
            ],
            "output": [
              "text"
            ]
          }
        },
        "doubao-seed-2.0-code": {
          "name": "doubao-seed-2.0-code",
          "limit": {
            "context": 256000,
            "output": 131072
          },
          "modalities": {
            "input": [
              "text"
            ],
            "output": [
              "text"
            ]
          }
        },
        "minimax-m2.5": {
          "name": "minimax-m2.5",
          "limit": {
            "context": 204800,
            "output": 16000
          },
          "options": {
            "thinking": {
              "budgetTokens": 20480,
              "type": "enabled"
            }
          },
          "modalities": {
            "input": [
              "text"
            ],
            "output": [
              "text"
            ]
          }
        },
        "qwen3.5-397b-a17b": {
          "name": "qwen3.5-397b-a17b",
          "limit": {
            "context": 256000,
            "output": 64000
          },
          "modalities": {
            "input": [
              "text",
              "image"
            ],
            "output": [
              "text"
            ]
          }
        },
        "qwen3-14b": {
          "name": "qwen3-14b",
          "limit": {
            "context": 131072,
            "output": 8192
          },
          "maxTokens": 8192,
          "modalities": {
            "input": [
              "text"
            ],
            "output": [
              "text"
            ]
          }
        },
        "qwen3-coder-480b-a35b-instruct": {
          "name": "qwen3-coder-480b-a35b-instruct",
          "limit": {
            "context": 256000,
            "output": 64000
          },
          "modalities": {
            "input": [
              "text"
            ],
            "output": [
              "text"
            ]
          }
        },
        "devstral-2-123b-instruct": {
          "name": "devstral-2-123b-instruct",
          "limit": {
            "context": 131072,
            "output": 66560
          },
          "modalities": {
            "input": [
              "text"
            ],
            "output": [
              "text"
            ]
          }
        },
        "llama-4-maverick-17b-128e-instruct": {
          "name": "llama-4-maverick-17b-128e-instruct",
          "limit": {
            "context": 1048576,
            "output": 128000
          },
          "modalities": {
            "input": [
              "text",
              "image"
            ],
            "output": [
              "text"
            ]
          }
        },
        "longcat-flash-thinking": {
          "name": "longcat-flash-thinking",
          "limit": {
            "context": 256000,
            "output": 256000
          },
          "modalities": {
            "input": [
              "text"
            ],
            "output": [
              "text"
            ]
          }
        },
        "nemotron-3-super-120b-a12b": {
          "name": "nemotron-3-super-120b-a12b",
          "limit": {
            "context": 1000000,
            "output": 67584
          },
          "options": {
            "thinking": {
              "budgetTokens": 16384,
              "type": "enabled"
            }
          },
          "modalities": {
            "input": [
              "text"
            ],
            "output": [
              "text"
            ]
          }
        },
        "longcat-flash-chat": {
          "name": "longcat-flash-chat",
          "limit": {
            "context": 256000,
            "output": 256000
          },
          "modalities": {
            "input": [
              "text"
            ],
            "output": [
              "text"
            ]
          }
        },
        "qwen3-next-80b-a3b-instruct": {
          "name": "qwen3-next-80b-a3b-instruct",
          "limit": {
            "context": 256000,
            "output": 16000
          },
          "modalities": {
            "input": [
              "text"
            ],
            "output": [
              "text"
            ]
          }
        },
        "kimi-k2.5": {
          "name": "kimi-k2.5",
          "limit": {
            "context": 256000,
            "output": 16000
          },
          "modalities": {
            "input": [
              "text",
              "image"
            ],
            "output": [
              "text"
            ]
          }
        },
        "glm-4.1v-thinking-flash": {
          "name": "glm-4.1v-thinking-flash",
          "limit": {
            "context": 64000,
            "output": 32000
          },
          "options": {
            "thinking": {
              "budgetTokens": 20480,
              "type": "enabled"
            }
          },
          "modalities": {
            "input": [
              "text",
              "image"
            ],
            "output": [
              "text"
            ]
          }
        }
      }
    }
  },
  "mcp": {
    "context7": {
      "type": "local",
      "command": [
        "npx",
        "-y",
        "@upstash/context7-mcp@latest"
      ],
      "environment": {
        "DEFAULT_MINIMUM_TOKENS": "10000"
      },
      "enabled": true
    },
    "chrome-devtools": {
      "type": "local",
      "command": [
        "npx",
        "-y",
        "chrome-devtools-mcp@latest"
      ],
      "enabled": true
    }
  }
}

2、OMO 配置：

{
  "$schema": "https://raw.githubusercontent.com/code-yeongyu/oh-my-openagent/dev/assets/oh-my-openagent.schema.json",
  "background_task": {
    "modelConcurrency": {
      "nreg/devstral-2-123b-instruct": 5,
      "nreg/doubao-seed-2.0-code": 2,
      "nreg/gpt-oss-120b": 5,
      "nreg/kimi-k2.5": 5,
      "nreg/llama-4-maverick-17b-128e-instruct": 5,
      "nreg/longcat-flash-chat": 10,
      "nreg/longcat-flash-lite": 10,
      "nreg/longcat-flash-thinking": 10,
      "nreg/nemotron-3-nano-30b-a3b": 5,
      "nreg/nemotron-3-super-120b-a12b": 5,
      "nreg/qwen3-coder-480b-a35b-instruct": 5,
      "nreg/qwen3-next-80b-a3b-instruct": 5,
      "nreg/qwen3-next-80b-a3b-thinking": 5,
      "nreg/qwen3.5-397b-a17b": 5,
      "nreg/step-3.5-flash": 5
    },
    "providerConcurrency": {
      "nreg": 15
    }
  },
  "runtime_fallback": {
    "cooldown_seconds": 60,
    "enabled": true,
    "max_fallback_attempts": 3,
    "notify_on_fallback": true,
    "retry_on_errors": [
      400,
      429,
      503,
      529
    ],
    "timeout_seconds": 30
  },
  "agents": {
    "atlas": {
      "model": "nreg/nemotron-3-super-120b-a12b",
      "fallback_models": [
        "nreg/qwen3.5-122b-a10b",
        {
          "model": "nreg/qwen3-next-80b-a3b-instruct",
          "variant": "low"
        },
        {
          "model": "nreg/qwen3-235b-a22b-thinking",
          "variant": "medium"
        }
      ],
      "prompt_append": "，始终使用中文回复"
    },
    "explore": {
      "model": "nreg/longcat-flash-lite",
      "fallback_models": [
        "nreg/step-3.5-flash",
        {
          "model": "nreg/gpt-oss-120b",
          "variant": "low"
        }
      ],
      "prompt_append": "，始终使用中文回复"
    },
    "hephaestus": {
      "model": "nreg/nemotron-3-super-120b-a12b",
      "fallback_models": [
        "nreg/qwen3.5-397b-a17b"
      ],
      "prompt_append": "，始终使用中文回复"
    },
    "librarian": {
      "model": "nreg/longcat-flash-lite",
      "fallback_models": [
        "nreg/step-3.5-flash",
        {
          "model": "nreg/gpt-oss-120b",
          "variant": "low"
        }
      ],
      "prompt_append": "，始终使用中文回复"
    },
    "metis": {
      "model": "nreg/minimax-m2.5",
      "fallback_models": [
        "nreg/qwen3-235b-a22b-thinking"
      ],
      "prompt_append": "，始终使用中文回复"
    },
    "momus": {
      "model": "nreg/kimi-k2.5",
      "fallback_models": [
        "nreg/qwen3-235b-a22b-thinking"
      ],
      "prompt_append": "，始终使用中文回复"
    },
    "multimodal-looker": {
      "model": "nreg/qwen3.5-397b-a17b",
      "fallback_models": [
        {
          "model": "nreg/qwen3.5-122b-a10b",
          "variant": "medium"
        }
      ],
      "prompt_append": "，始终使用中文回复"
    },
    "oracle": {
      "model": "nreg/qwen3-235b-a22b-thinking",
      "fallback_models": [
        "nreg/qwen3.5-122b-a10b",
        {
          "model": "nreg/qwen3.5-397b-a17b",
          "reasoningEffort": "high"
        }
      ],
      "prompt_append": "Focus on architecture decisions, complex debugging, and deep technical analysis. Read-only mode: do not write code，始终使用中文回复"
    },
    "prometheus": {
      "model": "nreg/nemotron-3-super-120b-a12b",
      "fallback_models": [
        "nreg/qwen3.5-122b-a10b"
      ],
      "prompt_append": "，始终使用中文回复"
    },
    "sisyphus": {
      "model": "nreg/nemotron-3-super-120b-a12b",
      "fallback_models": [
        "nreg/qwen3.5-397b-a17b",
        {
          "model": "nreg/qwen3.5-122b-a10b",
          "variant": "low"
        }
      ],
      "prompt_append": "，始终使用中文回复",
      "ultrawork": {
        "model": "nreg/qwen3.5-397b-a17b",
        "variant": "max"
      }
    },
    "sisyphus-junior": {
      "model": "nreg/nemotron-3-nano-30b-a3b",
      "fallback_models": [
        "nreg/qwen3-coder-30b-a3b-instruct",
        {
          "model": "nreg/qwen3-next-80b-a3b-instruct",
          "variant": "medium"
        },
        {
          "model": "nreg/qwen3-235b-a22b-instruct",
          "variant": "high"
        },
        {
          "model": "nreg/qwen3-coder-480b-a35b-instruct",
          "variant": "xhigh"
        }
      ],
      "prompt_append": "，始终使用中文回复"
    }
  },
  "categories": {
    "artistry": {
      "model": "nreg/nemotron-3-nano-30b-a3b",
      "fallback_models": [
        "nreg/longcat-flash-thinking"
      ]
    },
    "deep": {
      "model": "nreg/qwen3.5-397b-a17b",
      "fallback_models": [
        "nreg/qwen3.5-122b-a10b",
        {
          "model": "nreg/qwen3-next-80b-a3b-instruct",
          "variant": "low"
        },
        {
          "model": "nreg/qwen3-235b-a22b-instruct",
          "variant": "medium"
        },
        {
          "model": "nreg/qwen3-coder-480b-a35b-instruct",
          "variant": "high"
        }
      ]
    },
    "quick": {
      "fallback_models": [
        {
          "model": "nreg/step-3.5-flash",
          "variant": "medium"
        }
      ],
      "model": "nreg/devstral-2-123b-instruct"
    },
    "ultrabrain": {
      "model": "nreg/qwen3-235b-a22b-thinking",
      "fallback_models": [
        "nreg/longcat-flash-thinking",
        {
          "model": "nreg/qwen3-next-80b-a3b-thinking",
          "variant": "low"
        }
      ]
    },
    "unspecified-high": {
      "model": "nreg/qwen3.5-397b-a17b",
      "fallback_models": [
        "nreg/qwen3-next-80b-a3b-instruct",
        {
          "model": "nreg/qwen3-coder-30b-a3b-instruct",
          "variant": "low"
        },
        {
          "model": "nreg/qwen3-235b-a22b-instruct",
          "variant": "medium"
        },
        {
          "model": "nreg/qwen3-coder-480b-a35b-instruct",
          "variant": "high"
        }
      ]
    },
    "unspecified-low": {
      "fallback_models": [
        {
          "model": "nreg/qwen3-coder-30b-a3b-instruct",
          "variant": "low"
        },
        {
          "model": "nreg/qwen3-next-80b-a3b-instruct",
          "variant": "medium"
        },
        {
          "model": "nreg/qwen3-235b-a22b-instruct",
          "variant": "high"
        }
      ],
      "model": "nreg/nemotron-3-nano-30b-a3b"
    },
    "visual-engineering": {
      "model": "nreg/qwen3.5-397b-a17b",
      "fallback_models": [
        {
          "model": "nreg/qwen3.5-122b-a10b",
          "variant": "medium"
        }
      ]
    },
    "writing": {
      "fallback_models": [
        "nreg/longcat-flash-chat"
      ],
      "model": "nreg/longcat-flash-lite"
    }
  }
}

好了小伙伴们，这一套 美团龙猫、英伟达、OpenRouter、魔塔社区 组成的 Free Coding Plan 你们觉得怎么样呢？

10008873411 · 2026 年4 月 16 日 08:23

有4.7的flash版本了

10008873411 · 2026 年4 月 16 日 08:24

在杭州都听到你的算盘声了

10012174052 · 2026 年4 月 16 日 08:45

我知道，测过了，4.7-flash 的请求速率太低，开发用不了，模型做任务开发时会一直调工具, 比如 grep、read等
4.7-flash 会一直报错，有时候请求不通。

小声说说：文章中的每一家我都反复测试过了，大概有一两个月我都在找免费的模型，我以前都是舔着脸用 iflow 提供的免费模型，用了好长好长时间，我一直都有恃无恐，直到年前 iflow 发表了停止服务的声明，我真就慌了，这几个月一直在找免费的模型，不是我不肯付费，是我失业好长时间了，传统开发不太好找了，工资也很低，AI方面的要求又很高，我最近也只是找了私活在家干干，寥寥碎银几两，勉强过过日子。
其实我对 Iflow 蛮有感情的，我欠她好几个亿tokens

10009781125 · 2026 年4 月 16 日 09:10

支持辣评吗？不支持的话我下次看到消息立马删掉
1.美团龙猫不好用
2.英伟达反应很慢还经常断
3.openrouter确实不错但是你的会挑模型
4.智谱免费模型，小心把你代码搞坏了
5.魔搭社区讲究的是单次文本对话，快问快答，你可以接到iflow cli里面试试，工具调用都不稳定，经常会出错

综上所述，建议大家尽快购买智谱GLM Pro会员，早买早享受，后期定价会更高，哈哈哈哈哈哈

10012174052 · 2026 年4 月 16 日 09:12

支持支持，希望听到更多真实的声音，大家也是想听到各家模型的真实使用感受

10011122317 · 2026 年4 月 16 日 09:22

原帖的硅基流动和讯飞星辰还能用吗？可以在文章顶部补充链接并简单说明原帖的情况

另外补充两方面信息，

IDE

一个是IDE：基本只剩下trae cn了，不过热门模型需要排队，另一个是比较冷门的通义灵码lingma，lingma基本上就是qoder的cn版本，个人专业版暂时还是限免，而且最近不是发了 Qwen3.6-Plus嘛，估计如果多人用，也会那啥。

还有一个更冷门的文心快码Comate，现在支持了subagent，还重构了一部分底层，说不定效果还行，不过我就不试了，有lingma也够用了，另外，如果百度的模型抄新模型抄的足够快的话，说不定效果也还过得去？

我现在不倾向于使用IDE，因为我发现这些厂商写的系统提示词和agent编排水平和iflow比起来简直一个天一个地，需要热门模型的能力来抵消负面干扰。

CLI/API

opencode 有免费模型，而且提供api（ Zen | OpenCode），应该是稳定的，用户量很大，而且我注意到付费模型的价格是刀乐单位，而且不抵，说明平台是有实力支撑免费模型的，可以补充测评这个平台。

zen免费模型清单：

Grok Code Fast 1：在免费期间，收集的数据可能用于改进 Grok Code。
GLM 4.7：在免费期间，收集的数据可能用于改进模型。
MiniMax M2.1：在免费期间，收集的数据可能用于改进模型。
Big Pickle：在免费期间，收集的数据可能用于改进模型。

10008873411 · 2026 年4 月 16 日 09:30

不知道说啥希望你未来一切顺利

总感觉现状不会持续太久的时间，不然这么多开发者再回到手搓吗…

10012174052 · 2026 年4 月 16 日 09:44

讯飞星辰：那两个能用来开发的已经下架了（Qwen3.5-35B-A3B，Qwen3-Coder-Next-FP8），它把这两原来免费的现在搞成CodingPlan了，3块5一个月，但是吧你可以可以看看这个帖子：讯飞星辰从 TokenPlan 转为 CodingPlan -套餐上新实况 - AI摸鱼船 - 心流AI交流社区

还能用的只有（Qwen3-1.7B、Qwen3.5-2B），但是开发上用不了，上下文都只有32K，把它放在代码搜索智能体上都不适合，会一直触发自动压缩…

硅基流动：是我之前测试失误，我之前的帖子中的表格写的很明确TPM是5万到8万，而我们开发任务 会有上下文、系统提示词、tools工具定义等等，几乎每个请求在 7万 tokens 以上（OMO几乎在11W左右），因此硅基流动是用不了的，这也是在我后来的测试中深有体会，之前之所以测试失误，是因为它很多模型和别的几家重名了，负载均衡没怎么触发到它，后来我知道后我是专门挨个家测试的

opencode zen 的免费模型，我个人体验是会经常触发限流。我在之前的帖子中也提到过它。

opencode go 套餐价格虽然高，但确实是可以信任的，它的模型是在开发方面专门训练过的

PS：
在请求的tokens消耗上 OMO是出了名的消耗大，因此也就有了 oh-my-opencode-slim,
相关文章：
OpenCode-OhMyOpenCode-Slim-功能对比与选型指南_oh-my-opencode-slim-CSDN博客
 什么？oh-my-opencode 太重了？那试试 oh-my-opencode-slim - 知乎

10011488078 · 2026 年4 月 16 日 12:07

袋鼠的龙猫没用过，其他的感觉coding都不太行啊

10011122317 · 2026 年4 月 16 日 15:58

实践出真知，测一遍才知道哦

10004844970 · 2026 年4 月 16 日 23:55

免费的我只用trae了

10012970258 · 2026 年4 月 17 日 00:23

trae不是按量计费吗

10011488078 · 2026 年4 月 17 日 00:24

国内版吧

10008990087 · 2026 年4 月 17 日 01:03

有意思的是我在qwenpaw里调用魔搭社区的glm-5、qwen3.5都能顺畅，工具调用也没问题，不知道是不是优化过了

10012174052 · 2026 年4 月 17 日 06:27

感谢最新消息，我刚测了一下魔塔社区的 ZhipuAI/GLM-5 现在确实可用。

官方在文档中请求限制部分说明：单模型每日使用额度，这个额度是动态的，会根据资源、使用情况等因素动态调整。

glm-5 作为主流模型，很多人用，我推测 在动态调整上幅度是比较大的，在我之前的测试中，对于主流模型的测试验证了我的推测，遇到了很多问题，以下是之前的测试日志：（4月9号）

错误1：明明模型还有额度，但报错达到速率限制

响应首部: {
  "access-control-allow-credentials": "true",
  "access-control-allow-headers": "DNT,Keep-Alive,User-Agent,X-Requested-With,If-Modified-Since,Cache-Control,Content-Type,Range,Authorization",
  "access-control-allow-methods": "OPTION,HEAD,GET,POST",
  "access-control-allow-origin": "*",
  "access-control-max-age": "1728000",
  "cache-control": "no-cache",
  "connection": "keep-alive",
  "content-length": "150",
  "content-type": "application/json",
  "date": "Thu, 09 Apr 2026 06:35:47 GMT",
  "document-policy": "include-js-call-stacks-in-crash-reports",
  "modelscope-ratelimit-model-requests-limit": "100",  // 模型当天限额
  "modelscope-ratelimit-model-requests-remaining": "96", // 模型当天剩余额度
  "modelscope-ratelimit-requests-limit": "2000", // 用户当天限额
  "modelscope-ratelimit-requests-remaining": "1982", // 用户当天剩余额度
  "strict-transport-security": "max-age=15724800; includeSubDomains"
}
响应内容: {
  "error": {
    "code": "1302",
    "message": "您的账户已达到速率限制，请您控制请求频率"
  },
  "request_id": "9a10471f-00e1-4cd2-847a-ab40c586a19a"
}

错误2：支持 api 免费体验的模型还受模型官方付费的限制

响应内容: {
  "error": {
    "code": "insufficient_quota",
    "message": "You exceeded your current quota, please check your plan and billing details. For details, see: https://help.aliyun.com/zh/model-studio/error-code#token-limit",
    "param": null,
    "type": "insufficient_quota"
  },
  "request_id": "95d8098d-cd6b-49f5-b862-f6164e3ffbda"
}

错误3：支持api免费体验的模型还会报错余额不足（这种错误我真的无法理解）

响应首部: {
  "access-control-allow-credentials": "true",
  "access-control-allow-headers": "DNT,Keep-Alive,User-Agent,X-Requested-With,If-Modified-Since,Cache-Control,Content-Type,Range,Authorization",
  "access-control-allow-methods": "OPTION,HEAD,GET,POST",
  "access-control-allow-origin": "*",
  "access-control-max-age": "1728000",
  "cache-control": "no-cache",
  "connection": "keep-alive",
  "content-length": "147",
  "content-type": "application/json",
  "date": "Thu, 09 Apr 2026 06:44:41 GMT",
  "document-policy": "include-js-call-stacks-in-crash-reports",
  "modelscope-ratelimit-model-requests-limit": "100",
  "modelscope-ratelimit-model-requests-remaining": "98",
  "modelscope-ratelimit-requests-limit": "2000",
  "modelscope-ratelimit-requests-remaining": "1977",
  "strict-transport-security": "max-age=15724800; includeSubDomains"
}
响应内容: {
  "error": {
    "code": "402",
    "message": "Insufficient account balance",
    "type": "insufficient_balance"
  },
  "request_id": "cfb18d3b-d5b4-4d70-846d-1da55744fa88"
}