37 条回复  ·  3971 次点击
liu731 小成 2026-1-20 17:30:04
OP 太有实力了,之前内部部署了微调的 Mistral-Small-24B 。搞了半个月看到账单老板顶不住了。
Suger828 初学 2026-1-20 17:31:34
@liu731 一张 a100 80G 用 lora 微调差不多就够了吧,一个月租金不到 1w
Suger828 初学 2026-1-20 17:32:23
@TArysiyehua 才 300 多 b 好像
Suger828 初学 2026-1-20 17:37:06
@autumncry Linuxdo 有人部署了,其实效果比 codeplan 还要好一些
liu731 小成 2026-1-20 17:40:15
@Suger828 #21 顶不住,我们在腾讯云里面租的,半个月就花了一万多
Suger828 初学 2026-1-20 17:43:34
@liu731 租贵了,联系代理至少打四折
Suger828 初学 2026-1-20 17:44:36
@autumncry 实际上本地部署的比 code plan 的要强很多,code plan 阉割了
ihainan 小成 2026-1-20 17:56:24
Ollama 已经提供 Anthropic Compatible API 了: https://x.com/ollama/status/2012434308091224534 但模型只是 Claude Code 调用的一部分,工具是另一个大头,比如 Web Search 能力是服务提供商提供的,内网自己做 Web Search 的效果不管好坏,肯定是跟服务提供商的有区别。 另外就是模型的多模态能力,GLM 4.7 我不清楚是否有变动,4.6 本身没有视觉理解能力,得通过 MCP Tool 调用智谱的服务来实现,所以你还得额外部署视觉模型以及研究要如何通过 MCP 调用视觉模型服务。
edisonwong 小成 2026-1-20 18:12:13
@Mumu2580 #9 你说的是对的 自部署的模型对接 cc ,gemini cli 之流,一堆坑(我在公司调研+自部署折腾了都快半年了),不好用,而且都还没到模型小,资源那地步呢。
CaA23187 初学 2026-1-20 19:11:55
MiniMax2.1 一台 8w 的 mac 一个人用刚好,用的 MiniMax2 8bit 版本,60-80 token/s
返回顶部