一道小学一年级数学题，国产大模型全军覆没

让8个国产主流大模型做做小学一年级的数学题看看？

8月31日消息，首批大模型产品将陆续通过《生成式人工智能服务管理暂行办法》（以下简称《暂行办法》）备案，可正式上线面向公众提供服务。其中包括：百度文心一言、抖音云雀大模型、智谱AI的GLM大模型、中科院的紫东太初大模型、百川智能的百川大模型、商汤的日日新大模型、MiniMax的ABAB大模型、上海人工智能实验室的书生通用大模型、科大讯飞星火大模型，以及华为、腾讯的大模型产品，共计11家。

这是今天的新闻，上面提到的这些模型目前大部分都可以找到在线体验入口，想起前几天给我们家小孩讲过的小学一年级数学练习册里的一道题目，拿来考考这些大语言模型，看看它们的表现。

题目：15个圆球从上往下排列，其中只有1个是红色的，从上往下数，红色圆球位于第6个，这时，从最尾部拿走一个球，此时，请问从下往上数，红色圆球在第几个？

（小伙伴反馈「最尾部」不好理解，我换成「最下面」重新试了一下，除了讯飞星火，其他7个大模型仍然没有回答对）

中科院的紫东太初大模型、上海人工智能实验室的书生通用大模型、华为的盘古大模型、腾讯的混元大模型，这四个我没有找到在线体验入口。另外，阿里的通义千问虽然没有在上述11家里，但因为知名度的关系，我也测试了。

先说结论，挺出乎我意料的，国产大模型在这道相对简单的推理题上全军覆没，字节云雀和讯飞星火算是勉强摸到边，其他模型的回答都很糟糕。最后一张截图是我调了一下OpenAI的gpt-turbo-3.5-0613模型，它给出了正确的答案。

文章最后附上了各个模型的入口，有兴趣的同学可以自己去体验一下。

注1：补充360智脑大模型的测试结果（2023.09.05）

注2：这个测试只能说明这些国产大模型在这个特定的题目上表现不好，更全面的做法应该是使用一些业界的基准测试来评测。