37 条回复  ·  3969 次点击
gorvey 小成 2026-1-20 15:20:04
@autumncry #6 至少接口适配肯定做了不少额外的工作,因为 claude 接口风格和 openai 是不一样的,对话模型一般都是兼容 openai 的
autumncry 楼主 初学 2026-1-20 15:21:07
@Solix 有充足的资源部署。这个一秒几十次的请求,和模型可容纳的最大并发请求数量有关么? @urlk 后端适配是指在模型部署的时候,需要支持 openai 接口是么?也就是如果能用 openai 的方式 curl 通,就可以接入 cc 或者 opencode 是么? @Mumu2580 其实我用 opencode 免费 zen 模式的 glm4.7 和 minimax2.1 感觉质量可以的,我们可能不会涉及到特别复杂的项目,日常开发这两个模型完全可以 cover 了
Solix 初学 2026-1-20 15:29:44
@autumncry #11 有关系呀,一秒几十次请求模型,每个请求都带着 token ,你算算是多大的量,另外 glm code 套餐和 minimax 的 code 套餐都没有明确说并发,这都是黑盒,你只能自己算,至少一个 H200 是不够的
autumncry 楼主 初学 2026-1-20 15:30:06
@gorvey 其实如果只是接口适配做了变化都好说,因为接口可以中转,但是如果权重不一样,那代码能力指定是大打折扣的
autumncry 楼主 初学 2026-1-20 15:32:31
@Solix 哎看来是只能自己淌了,这些确实都不清楚。其实资源倒是好说,我们预算有至少 2 台 H800 8 卡服务器,还可以协调更多,主要还是担心开源模型并不是 coding plan 里的模型
zhouu 小成 2026-1-20 15:39:16
可以接入啊,vllm 、ollama 、llama-server 都是开箱即用支持 Anthropic 风格的`/v1/messages`API 的
pandaPapa 小成 2026-1-20 15:43:46
这得几百万?
utwo 初学 2026-1-20 16:58:22
https://build.nvidia.com/正好有 GLM4.7 和 MiniMax2.1 两个大模型的免费 API 调用。没用过的朋友可以把 API 接入 cherry studio 试用一下,和最好的商用还是有差距,但是已经能解决很多问题了。
defunct9 初学 2026-1-20 17:23:41
厉害啊,真想去楼主公司试试部署模型自己跑,那真太爽了
defunct9 初学 2026-1-20 17:24:29
https://rendoumi.com/posts/20260120-nvidia_claudecode/ nvidia 直接接入 claude code
返回顶部