Kimi 数学版评测

o1 出来之后，强化学习的范式已经成为业界共识。最近有三家公司都推出了自己的对标 o1 的模型，分别是月之暗面的 k0-math，Deepseek 的 R1 Lite，阿里巴巴的 Macro o1.

其中 k0-math 是最早发布的，重点优化了数学方面，在多项考试类测试集中都超过了 o1-preview。

CleanShot 2024-11-23 at 19.13.53@2x.png

这个模型发布之后，Orange 立刻去找 Kimi 的小伙伴问：什么时候能在线上体验这个模型？

昨天 Kimi 的小伙伴终于邀请我参与了模型的内测，在这里跟大家分享一下对这个模型的体验。

CleanShot 2024-11-23 at 18.56.30@2x.png

很多人听到数学模型的第一反应是做高考题之类的，

其实生活中很多地方都需要用到数学，购物算价格、健身算卡路里、产品经理算增长数据，等等。

接下来为大家分享几个我测试的例子。这部分问题之前大模型的数学能力难以解决，但是在今天学会数学后能去做更多的事情

第一道题，首先我们还是从最经典的题目开始

9.8和9.11谁更大？

CleanShot 2024-11-23 at 18.48.25@2x.png

大模型终于懂了！分数的十分位大小决定了一切，回答正确。

有个人想买几套餐具，到了店里发现，自己的钱可以买21把又子和21个勺子，也够买28个小刀，但是，他想三样东西都买，而且要配成一套，并且把钱刚好花完，如果你是这个人，你会怎么买呢？

CleanShot 2024-11-23 at 18.27.52@2x.png

可以看到这个计算过程是相当的详细，计算过程的每一步都清晰地写了出来，这样非常方便定位错误，当然最终计算结果也没问题。