在9.11和9.8谁更大上 OpenAI最新的大模型OpenAI o1也翻车了
9月13日消息,据外媒报道,在今年7月份,也就是在OpenAI推出新一代旗舰大模型GPT-4o之后约两个月,国外有用户在社交媒体上爆料称自己在ChatGPT 4o上询问9.11和9.9哪一个大(9.11and9.9—which is bigger?)时, ChatGPT 4o笃定的回答9.11比9.9大(9.11 is bigger than 9.9),OpenAI当时最强模型GPT-4o加持下的ChatGPT 4o,在这一问题上给出如此离奇的回答也让外界震惊不已。
而随后有用户的测试发现,不只是GPT-4o加持下的ChatGPT 4o,谷歌Gemini Advanced、Claude 3.5 Sonnet这两款国外知名的大模型在这一问题上也相继翻车,国内也有多家厂商的大模型未能幸免。
除了9.11和9.9,也有相关媒体对其他的数字进行测试,比如9.11和9.8,结果显示也有多家厂商的大模型翻车。
在OpenAI当地时间周四推出较以往的模型更注重推理,在奥数、编程竞赛中的表现都远强于GPT-4o的OpenAI o1系列大模型之后,也有好奇的用户再次对这一问题进行了测试。
但让人意外的是,号称有更强推理能力、数学和编程方面表现出色的OpenAI o1,也未能避免翻车。
有测试显示,在询问9.11和9.8谁更大这一问题时,OpenAI o1预览版在经过14秒的思考后,还是给出了9.11更大的结果,而给出的原因竟是因为9.11比9.8大。
就显示的内容来看,OpenAI o1预览版在比较9.11和9.8谁更大时,进行了比较数值大小、对比数值大小、对比大小、比较两个数值这4个方面的思考,但除了对比数值大小、对比大小是9.8大于9.11,另外两个方面都是9.11大于9.8。不过在对比数值大小这一项中,显示的是“蒙特认为9.8大于9.11,9.8显示出数学上的优越性。”(海蓝)