飞社-令人惊奇的创意工作者社区-程序员自己部署 GLM4.7 或者 MiniMax2.1，能接入 Claude code 或者 opencode 么？

gorvey

@autumncry #6 至少接口适配肯定做了不少额外的工作,因为 claude 接口风格和 openai 是不一样的,对话模型一般都是兼容 openai 的

autumncry

@Solix 有充足的资源部署。这个一秒几十次的请求，和模型可容纳的最大并发请求数量有关么？ @urlk 后端适配是指在模型部署的时候，需要支持 openai 接口是么？也就是如果能用 openai 的方式 curl 通，就可以接入 cc 或者 opencode 是么？ @Mumu2580 其实我用 opencode 免费 zen 模式的 glm4.7 和 minimax2.1 感觉质量可以的，我们可能不会涉及到特别复杂的项目，日常开发这两个模型完全可以 cover 了

Solix

@autumncry #11 有关系呀，一秒几十次请求模型，每个请求都带着 token ，你算算是多大的量，另外 glm code 套餐和 minimax 的 code 套餐都没有明确说并发，这都是黑盒，你只能自己算，至少一个 H200 是不够的

autumncry

@gorvey 其实如果只是接口适配做了变化都好说，因为接口可以中转，但是如果权重不一样，那代码能力指定是大打折扣的

autumncry

@Solix 哎看来是只能自己淌了，这些确实都不清楚。其实资源倒是好说，我们预算有至少 2 台 H800 8 卡服务器，还可以协调更多，主要还是担心开源模型并不是 coding plan 里的模型

zhouu

可以接入啊，vllm 、ollama 、llama-server 都是开箱即用支持 Anthropic 风格的`/v1/messages`API 的

pandaPapa

这得几百万?

utwo

https://build.nvidia.com/正好有 GLM4.7 和 MiniMax2.1 两个大模型的免费 API 调用。没用过的朋友可以把 API 接入 cherry studio 试用一下，和最好的商用还是有差距，但是已经能解决很多问题了。

defunct9

厉害啊，真想去楼主公司试试部署模型自己跑，那真太爽了

defunct9

https://rendoumi.com/posts/20260120-nvidia_claudecode/ nvidia 直接接入 claude code

浏览过的版块