会员登录 - 用户注册 - 设为首页 - 加入收藏 - 网站地图 通用 LLM 挑戰數學奧林匹亞試題,OpenAI 推理模型達金牌水準!

通用 LLM 挑戰數學奧林匹亞試題,OpenAI 推理模型達金牌水準

时间:2025-11-14 13:47:53 来源:孤云野鹤网 作者:大兴区 阅读:568次

歷史悠久、規模盛大的國際數學奧林匹亞競賽(International Mathematical Olympiad,IMO),今年不只有天資聰穎的各國學生參賽,還有 OpenAI 以尚未公開的實驗性推理模型加入挑戰,為自家 AI 發展增添重要里程碑。

從事大型語言模型和推理研究的 OpenAI 科學家 Alexander Wei 在 X 發文表示,OpenAI 最新推理模型解出今年 IMO 競賽 6 道題目中的 5 題。模型對每道數學題目提交作答證明,並由 3 名前 IMO 獎牌得主獨立評分,取得一致共識確認最終分數。滿分 42 分的前提下,OpenAI 總共得到 35 分,足以獲得金牌。

面對 IMO 需要提交難以驗證、長達多頁的作答證明,OpenAI 以強化學習,打造出能夠撰寫複雜且能嚴謹論證、媲美數學家的模型。

OpenAI 與學生選手遵照相同規則,在 2 場各 4.5 小時的考試,由模型讀取數學題目說明,以自然語言方式產生作答證明,而且不得使用網路或其他工具。

IMO 題目要求持續的創造性思考,遠遠超越過往的基準測試。在推理所需時間上,OpenAI 的模型從基準測試 GSM8K(頂尖人才需約 0.1 分鐘)、MATH(約 1 分鐘)、AIME(約 10 分鐘)再到這次 IMO(約 100 分鐘),持續有所突破。

實際上,IMO 競賽讓各國派出最多 6 名學生參賽,挑戰極具難度的數學題目。今年有 630 名參賽者,僅 67 人獲頒金牌。

值得一提的是,Alexander Wei 談到 OpenAI 很快將會推出 GPT-5,期待大家試用。他也補充,IMO 金牌級模型屬於實驗性研究模型,暫不打算在未來數個月釋出具有強大數學能力的產品。

we achieved gold medal level performance on the 2025 IMO competition with a general-purpose reasoning system! to emphasize, this is an LLM doing math and not a specific formal math system; it is part of our main push towards general intelligence.

when we first started openai,… https://t.co/X46rspI4l6

— Sam Altman (@sama) July 19, 2025

▲ 挑戰 IMO 取得佳績,OpenAI 執行長強調這是以大型語言模型作答數學題目,並非採用特定數學系統,這也是 OpenAI 推動通用智慧成就之一。

(首圖來源:pixabay)

文章看完覺得有幫助,何不給我們一個鼓勵

請我們喝杯咖啡 icon-coffee

想請我們喝幾杯咖啡?

icon-tag

每杯咖啡 65 元

icon-coffeex 1 icon-coffeex 3 icon-coffeex 5 icon-coffeex

您的咖啡贊助將是讓我們持續走下去的動力

總金額共新臺幣 0 元 《關於請喝咖啡的 Q & A》 取消 確認

(责任编辑:嘉定区)

相关内容
  • 打“第三者”耳光后,时隔8年原配再被刑拘
  • 按项目进度分次付款!上海出台全屋家居定制合同示范文本
  • 加强中小学科技教育 七部门联合发文
  • 核武专家都在猜,特朗普这句话什么意思?
  • 加强中小学科技教育 七部门联合发文
  • 成果丰硕 亮点纷呈!首届粤东西北知识产权创新创业大赛正式收官
  • 非全日制博士78万元总学费,算不算“天价”?
  • 美国哈佛大学医学院发生爆炸 警方公布嫌疑人图像
推荐内容
  • 美军“福特”号航母打击群进入加勒比海!马杜罗最新表态
  • 天津“一企一照一码”应用试点落地
  • “巴塔”宣称负责!巴防长:巴基斯坦处于战争状态
  • 江苏省五部门联合部署校园食品安全排查整治专项行动
  • 柬埔寨:没有埋设新地雷
  • 金正恩视察第十一军:打造令敌人闻风丧胆的军队