飞社-令人惊奇的创意工作者社区-程序员kimi K2 Thinking 都这样的玩的话，如何作为参考依据呢？纯刷榜？

Leoking222 · 2025-11-10 14:00:38

国内：跑分没输过，实战没赢过

Leoking222 · 2025-11-10 14:01:24

@jasonjie2015 国产所有的模型都在对比 Claude ，但其实他们都只达到了 Claude sonnet 3.7 的水平 🤣

maolon · 2025-11-10 14:39:57

首先所有榜单都只能是参考，每个人的用法天差地别，其次这些榜单每一个都是有侧重点的另外还有一个很简单的判断方法，什么时候 claude 和 openai 开始对标国产模型了，那他们就真超越了。谁对标谁就用被对标的那个, simple as that

fbu11 · 2025-11-10 15:00:23

跟国内还是国外没关系，GPT5 也一样，每个大模型的跑分榜单模式都是这样的，他们上榜说是吊打 XXX 模型，都是有特定条件的

lance07 · 2025-11-10 15:41:46

都这样，gpt 之前还测评作弊。差距有但不是在这里

snw · 2025-11-10 15:44:17

试过用免费版的 K2 Thinking 模式找些数据，结果思维陷入死循环了： > 一会儿说我在网上找到了一个数据 a ，但很难找到其他数据，也许我应该去官方信源找数据。 > 过了十来分钟，又说我在网上找到了一个数据 a （和上面一样），但很难找到其他数据，也许我应该去官方报告找数据 > ...... 如此循环了将近十次，然后直接清空了前面所有思考过程，输出空白。旁边提示可以试试付费版投入更多算力😂

snw · 2025-11-10 15:48:01

@snw 又看了下，是提示“深度研究额度已用尽”。反正看试用版这表现我是不敢付费的，看起来额度被死循环耗尽了。

zhangeric · 2025-11-10 16:11:45

楼主就是把外国人想的太好了啊.

浏览过的版块