9月25日消息,來自亞利桑那州立大學(xué)的科研團(tuán)隊利用PlanBench基準(zhǔn),測試了OpenAIo1模型的規(guī)劃能力。研究結(jié)果表明o1模型取得了長足的進(jìn)步,但仍然存在很大的局限性。
PlanBench開發(fā)于2022年,用于評估人工智能系統(tǒng)的規(guī)劃能力,包括600個來自Blocksworld領(lǐng)域的任務(wù),其中積木必須按照特定順序堆疊。
在Blocksworld任務(wù)中,OpenAI的o1模型準(zhǔn)確率達(dá)到97.8%,大大超過了之前的最佳語言模型LLaMA3.1405B(準(zhǔn)確率為62.6%)。
在更具挑戰(zhàn)性的“MysteryBlocksworld”加密版本中,傳統(tǒng)模型幾乎全部失敗,而OpenAI的o1模型準(zhǔn)確率達(dá)到52.8%。
研究人員還測試了一種新的隨機(jī)變體,以排除o1的性能可能源于其訓(xùn)練集中的基準(zhǔn)數(shù)據(jù)。在這次測試中,O1的準(zhǔn)確率降至37.3%,但仍遠(yuǎn)遠(yuǎn)超過了得分接近零的其它模型。
隨著任務(wù)越來越復(fù)雜,o1的表現(xiàn)也急劇下降。在需要20到40個規(guī)劃步驟的問題上,o1在較簡單測試中的準(zhǔn)確率從97.8%下降到只有23.63%。
該模型在識別無法解決的任務(wù)方面也很吃力,只有27%的時間能夠正確識別。在54%的情況下,它錯誤地生成了完整但不可能完成的計劃。
雖然o1在基準(zhǔn)性能上實現(xiàn)了“量子改進(jìn)”(Quantumimprovement),但它并不能保證解決方案的正確性。如快速向下算法等經(jīng)典的規(guī)劃算法,可以在更短的計算時間內(nèi)實現(xiàn)完美的準(zhǔn)確性。
研究還強(qiáng)調(diào)了o1的高資源消耗,運行這些測試需要花費近1900美元,而經(jīng)典算法在標(biāo)準(zhǔn)計算機(jī)上運行幾乎不需要任何成本。
研究人員強(qiáng)調(diào),對人工智能系統(tǒng)進(jìn)行公平比較必須考慮準(zhǔn)確性、效率、成本和可靠性。他們的研究結(jié)果表明,雖然像o1這樣的人工智能模型在復(fù)雜推理任務(wù)方面取得了進(jìn)步,但這些能力還不夠強(qiáng)大。
分享到微信 ×
打開微信,點擊底部的“發(fā)現(xiàn)”,
使用“掃一掃”即可將網(wǎng)頁分享至朋友圈。