37 条回复  ·  3967 次点击
redbeanzzZ 小成 2026-1-20 19:51:10
github 上 claude code router 试下呢?还有 zcf
Rrrrrr 初学 2026-1-20 20:02:38
2 楼正解
deeplee 初学 2026-1-20 22:33:16
我们公司是内网自己部署的 glm4.7 ,配合 claude code + superpowers ,简单的项目效果还可以
yycyanyicheng 初学 2026-1-20 23:14:30
code plan 9.9 5 小时 40 条 prompt. 手上有 cursor + claude sonnet 4.5 + codex 整体玩下来感觉还可以,就是做一些指令的时候没有那么好,同样的谷歌插件代码,miniax2.1 搞了几次搞不定,其实换了 codex 它也是有错误。 目前还没有强烈感觉到它很差劲的地方。平替是可以的
bwnjnOEI 初学 2026-1-20 23:28:17
好几个开源 llm 网关,统一所有接口而且可以遥测和统计 token ,另外多卡用 vllm 或 sglang 部署都有很好的并发优化。必须先部署上之后效果需要不断优化,就对着这俩文档研究参数和基本原理就行
bwnjnOEI 初学 2026-1-20 23:33:30
@bwnjnOEI 但是我不建议使用 claude code router ,至少公司使用这个不可行,推荐 Bifrost go 写的比 litellm python 的快
bwnjnOEI 初学 2026-1-20 23:56:32
@bwnjnOEI 难点就是瞬时 token 数量会不会爆显存,如果观测一段时间爆了要么加算计要么上手段比如 fp8 (前提调点精度能不能接受
starlion 小成 2026-1-21 00:35:39
可以啊,自己搞个大模型网关,通过这个网关来调用网关后面的大模型能力,就像 nginx 差不多
1234
返回顶部