近日,Meta 公司為了緩解自然語(yǔ)言處理(NLP)技術(shù)依賴(lài)人類(lèi)注釋評(píng)估 AI 模型的問(wèn)題,最新推出了“自學(xué)評(píng)估器”(Self-Taught Evaluator),利用合成數(shù)據(jù)訓(xùn)練 AI。
NPU 技術(shù)挑戰(zhàn)
NPU 技術(shù)的發(fā)展,推動(dòng)大型語(yǔ)言模型(LLMs)高精度地執(zhí)行復(fù)雜的語(yǔ)言相關(guān)任務(wù),實(shí)現(xiàn)更自然的人機(jī)交互。
不過(guò)當(dāng)前 NPU 技術(shù)面臨的一個(gè)重要挑戰(zhàn),就是評(píng)估模型嚴(yán)重依賴(lài)人工注釋。
人工生成的數(shù)據(jù)對(duì)于訓(xùn)練和驗(yàn)證模型至關(guān)重要,但收集這些數(shù)據(jù)既費(fèi)錢(qián)又費(fèi)時(shí)。而且隨著模型的改進(jìn),以前收集的注釋可能需要更新,從而降低了它們?cè)谠u(píng)估新模型時(shí)的效用。
目前的模型評(píng)估方法通常涉及收集大量人類(lèi)對(duì)模型響應(yīng)的偏好判斷。這些方法包括在有參考答案的任務(wù)中使用自動(dòng)度量,或使用直接輸出分?jǐn)?shù)的分類(lèi)器。
這些方法都有局限性,尤其是在創(chuàng)意寫(xiě)作或編碼等復(fù)雜場(chǎng)景下,可能存在多個(gè)有效回答,導(dǎo)致了人類(lèi)判斷的高差異問(wèn)題和高成本。
自學(xué)評(píng)估器
Meta FAIR 團(tuán)隊(duì)推出了名為“自學(xué)評(píng)估器”的全新方式,不需要人工注釋?zhuān)鞘褂煤铣蓴?shù)據(jù)進(jìn)行訓(xùn)練。
這一過(guò)程從種子模型開(kāi)始,種子模型會(huì)生成對(duì)比鮮明的合成偏好對(duì)。然后,模型對(duì)這些偏好對(duì)進(jìn)行評(píng)估并不斷改進(jìn),在隨后的迭代中利用其判斷來(lái)提高性能。這種方法充分利用了模型生成和評(píng)估數(shù)據(jù)的能力,大大減少了對(duì)人工注釋的依賴(lài)。
IT之家附上關(guān)鍵步驟如下:
1. 使用種子 LLM 為給定指令生成基線響應(yīng)。
2. 創(chuàng)建指令的修改版本,促使 LLM 生成質(zhì)量低于原始響應(yīng)的新響應(yīng)。
這些配對(duì)回答構(gòu)成了訓(xùn)練數(shù)據(jù)的基礎(chǔ),“自學(xué)評(píng)估器”作為 LLM-as-a-Judge,為這些配對(duì)生成推理軌跡和判斷。
通過(guò)反復(fù)該過(guò)程,模型通過(guò)自我生成和自我評(píng)估的數(shù)據(jù)不斷提高其判斷的準(zhǔn)確性,從而有效地形成自我完善的循環(huán)。
成果
Meta FAIR 團(tuán)隊(duì)在 Llama-3-70B-Instruct 模型上測(cè)試“自學(xué)評(píng)估器”,在 RewardBench 基準(zhǔn)測(cè)試中將準(zhǔn)確率從 75.4 提高到了 88.7,達(dá)到或超過(guò)了使用人類(lèi)注釋訓(xùn)練的模型的性能,性能超過(guò)GPT-4等常用大語(yǔ)言模型評(píng)審(LLM Judges)。
這一重大改進(jìn)證明了合成數(shù)據(jù)在加強(qiáng)模型評(píng)估方面的有效性。此外,研究人員還進(jìn)行了多次迭代,進(jìn)一步完善了模型的功能。
分享到微信 ×
打開(kāi)微信,點(diǎn)擊底部的“發(fā)現(xiàn)”,
使用“掃一掃”即可將網(wǎng)頁(yè)分享至朋友圈。