7月16日消息,微軟首席技術(shù)官(CTO)凱文?斯科特(KevinScott)上周在接受紅杉資本旗下播客采訪時(shí),重申了他堅(jiān)信大型語言模型(LLM)的“規(guī)模定律”將繼續(xù)推動(dòng)人工智能進(jìn)步的觀點(diǎn),盡管該領(lǐng)域一些人懷疑進(jìn)步已經(jīng)停滯。斯科特在推動(dòng)微軟與OpenAI達(dá)成130億美元的技術(shù)共享協(xié)議方面發(fā)揮了關(guān)鍵作用。
斯科特表示:“其他人可能持不同觀點(diǎn),但我認(rèn)為規(guī)?;⑽催_(dá)到邊際收益遞減的臨界點(diǎn)。我想讓人們理解這里存在著一個(gè)指數(shù)級(jí)提升的過程,遺憾的是,你只能每隔幾年才能看到一次,因?yàn)榻ㄔ斐?jí)計(jì)算機(jī)然后用它們訓(xùn)練模型都需要時(shí)間。”
2020年,OpenAI研究人員探索了LLM的“規(guī)模定律”,該定律表明,隨著模型變得更大(參數(shù)更多)、訓(xùn)練數(shù)據(jù)更多以及擁有更強(qiáng)大的計(jì)算能力,語言模型的性能往往會(huì)呈可預(yù)測的提升。這一定律意味著,僅僅增加模型規(guī)模和訓(xùn)練數(shù)據(jù),就能夠顯著提升人工智能能力,而無需取得根本性的算法突破。
然而,此后也有其他研究人員對(duì)“規(guī)模定律”的長期有效性提出質(zhì)疑。不過,該概念仍是OpenAI人工智能研發(fā)理念的基石。斯科特所持的樂觀態(tài)度與部分人工智能領(lǐng)域批評(píng)人士的觀點(diǎn)形成鮮明對(duì)比,一些人認(rèn)為,大型語言模型的進(jìn)步在類似GPT-4的模型級(jí)別已經(jīng)停滯不前。這種觀點(diǎn)主要基于對(duì)谷歌Gemini1.5Pro、Anthropic的ClaudeOpus以及OpenAI的GPT-4o等最新模型的非正式觀察和一些基準(zhǔn)測試結(jié)果。一些人認(rèn)為,這些模型并沒有像前幾代模型那樣取得飛躍性的進(jìn)步,大型語言模型的發(fā)展可能正在接近“邊際收益遞減”的階段。
人工智能領(lǐng)域著名批評(píng)人士GaryMarcus在今年4月寫道:“GPT-3明顯優(yōu)于GPT-2,GPT-4(發(fā)布于13個(gè)月前)也明顯強(qiáng)于GPT-3。但之后呢?”
斯科特所持的立場表明,像微軟這樣的科技巨頭仍然認(rèn)為投資大型人工智能模型是合理的,他們押注于持續(xù)取得突破??紤]到微軟對(duì)OpenAI的投資以及大力營銷自家的人工智能協(xié)作工具“MicrosoftCopilot”,該公司強(qiáng)烈希望維持人工智能領(lǐng)域持續(xù)進(jìn)步的公眾認(rèn)知,即使技術(shù)本身可能遇到瓶頸。
另一位人工智能領(lǐng)域知名批評(píng)人士EdZitron最近在其博客上寫道,有些人支持繼續(xù)投資生成式人工智能的一個(gè)理由是,“OpenAI掌握著我們不知道的某種技術(shù),一項(xiàng)強(qiáng)大而神秘的技術(shù),能夠徹底擊潰所有懷疑者的質(zhì)疑。”他寫道,“但事實(shí)并非如此。”
公眾對(duì)大型語言模型能力提升放緩的認(rèn)知,以及基準(zhǔn)測試的結(jié)果,部分原因可能在于人工智能最近才進(jìn)入公眾視野,而事實(shí)上,大型語言模型已經(jīng)發(fā)展多年。OpenAI在2020年發(fā)布GPT-3之后的三年中一直持續(xù)研發(fā)大型語言模型,直到2023年發(fā)布GPT-4。許多人可能是在2022年底利用GPT-3.5開發(fā)的聊天機(jī)器人ChatGPT上線后才開始意識(shí)到類似GPT-3的模型的強(qiáng)大功能,因此在2023年GPT-4發(fā)布時(shí)才會(huì)覺得能力提升巨大。
斯科特在采訪中反駁了人工智能進(jìn)步停滯的觀點(diǎn),但他同時(shí)也承認(rèn),由于新模型往往需要數(shù)年才能開發(fā),因此該領(lǐng)域的數(shù)據(jù)點(diǎn)更新的確較慢。盡管如此,斯科特仍然對(duì)未來版本的改進(jìn)充滿信心,尤其是在當(dāng)前模型表現(xiàn)不佳的領(lǐng)域。
“下一個(gè)突破即將到來,我無法確切地預(yù)測它何時(shí)出現(xiàn),也不知道它會(huì)取得多大的進(jìn)步,但它幾乎肯定會(huì)改善目前那些不夠完善的方面,比如模型的成本過高或過于脆弱,讓人難以放心使用,”斯科特在采訪中表示,“所有這些方面都會(huì)得到改善,成本會(huì)降低,模型會(huì)變得更加穩(wěn)定。屆時(shí),我們將能夠?qū)崿F(xiàn)更加復(fù)雜的功能。這正是每一代大型語言模型通過規(guī)?;〉玫某删?。”
分享到微信 ×
打開微信,點(diǎn)擊底部的“發(fā)現(xiàn)”,
使用“掃一掃”即可將網(wǎng)頁分享至朋友圈。