大模型領(lǐng)域中,微調(diào)是改進模型性能的重要一步。隨著開源大模型逐漸變多,人們總結(jié)出了很多種微調(diào)方式,其中一些取得了很好的效果。
最近,來自 Meta、紐約大學(xué)的研究者用「自我獎勵方法」,讓大模型自己生成自己的微調(diào)數(shù)據(jù),給人帶來了一點新的震撼。
在新方法中,作者對 Llama 2 70B 進行了三個迭代的微調(diào),生成的模型在 AlpacaEval 2.0 排行榜上優(yōu)于一眾現(xiàn)有重要大模型,包括 Claude 2、Gemini Pro 和 GPT-4。

因此,論文剛剛發(fā)上 arXiv 幾個小時就引起了人們的注意。
雖然目前方法還沒有開源,但是人們認(rèn)為論文中使用的方法描述清晰,復(fù)現(xiàn)起來應(yīng)該不難。

眾所周知,使用人類偏好數(shù)據(jù)調(diào)整大語言模型(LLM)可以極大提高預(yù)訓(xùn)練模型的指令跟蹤性能。在 GPT 系列中,OpenAI 提出了人類反饋強化學(xué)習(xí) (RLHF) 的標(biāo)準(zhǔn)方法,讓大模型可以從人類偏好中學(xué)習(xí)獎勵模型,再使得獎勵模型被凍結(jié)并用于使用強化學(xué)習(xí)訓(xùn)練 LLM,這種方法已獲得了巨大的成功。
最近出現(xiàn)的新思路是完全避免訓(xùn)練獎勵模型,并直接使用人類偏好來訓(xùn)練 LLM,如直接偏好優(yōu)化(DPO)。在以上兩種情況下,調(diào)優(yōu)都受到人類偏好數(shù)據(jù)的大小和質(zhì)量的瓶頸,并且在 RLHF 的情況下,調(diào)優(yōu)質(zhì)量還受到從它們訓(xùn)練的凍結(jié)獎勵模型的質(zhì)量的瓶頸。
在 Meta 的新工作中,作者提議訓(xùn)練一個自我改進的獎勵模型,該模型不是被凍結(jié),而是在 LLM 調(diào)整期間不斷更新,以避免這一瓶頸。
這種方法的關(guān)鍵是開發(fā)一個擁有訓(xùn)練期間所需的所有能力的智能體(而不是分為獎勵模型和語言模型),讓指令跟隨任務(wù)的預(yù)訓(xùn)練和多任務(wù)訓(xùn)練允許通過同時訓(xùn)練多個任務(wù)來實現(xiàn)任務(wù)遷移。
因此作者引入了自我獎勵語言模型,其智能體既充當(dāng)遵循模型的指令,為給定的提示生成響應(yīng),也可以根據(jù)示例生成和評估新指令,以添加到他們自己的訓(xùn)練集中。
新方法使用類似于迭代 DPO 的框架來訓(xùn)練這些模型。從種子模型開始,如圖 1 所示,在每次迭代中都有一個自指令創(chuàng)建過程,其中模型為新創(chuàng)建的提示生成候選響應(yīng),然后由同一模型分配獎勵。后者是通過 LLM-as-a-Judge 的提示來實現(xiàn)的,這也可以看作是指令跟隨任務(wù)。根據(jù)生成的數(shù)據(jù)構(gòu)建偏好數(shù)據(jù)集,并通過 DPO 訓(xùn)練模型的下一次迭代。

01 自我獎勵的語言模型
作者提出的方法首先假設(shè):可以訪問基本的預(yù)訓(xùn)練語言模型和少量人工注釋的種子數(shù)據(jù),然后建立一個模型,旨在同時擁有兩種技能:
1. 指令遵循:給出描述用戶請求的提示,能夠生成高質(zhì)量、有幫助(且無害)的響應(yīng)。
2. 自指令創(chuàng)建:能夠按照示例生成和評估新指令以添加到自己的訓(xùn)練集中。
使用這些技能是為了使模型能夠執(zhí)行自對準(zhǔn),即它們是用于使用人工智能反饋(AIF)迭代訓(xùn)練自身的組件。
自指令的創(chuàng)建包括生成候選響應(yīng),然后讓模型本身判斷其質(zhì)量,即它充當(dāng)自己的獎勵模型,從而取代對外部模型的需求。這是通過 LLM-as-a-Judge 機制實現(xiàn)的 [Zheng et al., 2023b],即通過將響應(yīng)評估制定為指令跟隨任務(wù)。這個自行創(chuàng)建的 AIF 偏好數(shù)據(jù)被用作訓(xùn)練集。
所以在微調(diào)過程中,相同的模型被用于兩個角色:作為「學(xué)習(xí)者」和作為「法官」。基于新出現(xiàn)的法官角色,模型可以通過上下文微調(diào)來進一步提升性能。
整體的自對齊過程是一個迭代過程,通過以下步驟來進行:構(gòu)建一系列模型,每個模型都比上一個模型有所改進。在這其中重要的是,由于模型既可以提高其生成能力,又可以通過相同的生成機制作為自己的獎勵模型,這意味著獎勵模型本身可以通過這些迭代來改進,這就與獎勵模型固有的標(biāo)準(zhǔn)做法出現(xiàn)了不同。
研究者認(rèn)為,此種方式可以提高這些學(xué)習(xí)模型未來自我改進的潛力上限,消除限制性瓶頸。
圖 1 展示了該方法的概述。


02 實驗
在實驗中,研究者使用了 Llama 2 70B 作為基礎(chǔ)預(yù)訓(xùn)練模型。他們發(fā)現(xiàn),與基線種子模型相比,自獎勵 LLM 對齊不僅提高了指令跟隨表現(xiàn),獎勵建模能力也得到了提高。
這意味著在迭代訓(xùn)練中,模型能夠在給定的迭代中為自己提供比上一次迭代質(zhì)量更好的偏好數(shù)據(jù)集。雖然這種影響在現(xiàn)實世界中會趨于飽和,但提供了一種有趣的可能:這樣得到的獎勵模型(以及 LLM)要優(yōu)于僅從人類撰寫的原始種子數(shù)據(jù)里訓(xùn)練的模型。
在指令跟隨能力方面,實驗結(jié)果如圖 3 所示:

研究者在 AlpacaEval 2 排行榜上評估了自獎勵模型,結(jié)果如表 1 所示。
他們觀察到了與 head-to-head 評估相同的結(jié)論,即訓(xùn)練迭代的勝率比 GPT4-Turbo 高,從迭代 1 的 9.94%,到迭代 2 的 15.38%,再到迭代 3 的 20.44%。
同時,迭代 3 模型優(yōu)于許多現(xiàn)有模型,包括 Claude 2、Gemini Pro 和 GPT4 0613。

獎勵建模評估結(jié)果如表 2,結(jié)論包括:
EFT 增強比 SFT 基線有所改進。
使用 IFT+EFT 與單獨使用 IFT 相比,所有五個測量指標(biāo)都有所改進,例如,與人類的成對準(zhǔn)確率一致性從 65.1% 提高到 78.7%。
通過自我訓(xùn)練提高獎勵建模能力。進行一輪自我獎勵訓(xùn)練后,模型為下一次迭代提供自我獎勵的能力得到了提高,此外它的指令跟隨能力也得到了提高。
LLMas-a-Judge 提示的重要性。研究者使用了各種提示格式發(fā)現(xiàn),LLMas-a-Judge 提示在使用 SFT 基線時成對準(zhǔn)確率更高。
作者認(rèn)為,自我獎勵的訓(xùn)練方式既提高了模型的指令跟蹤能力,也提高了模型在迭代中的獎勵建模能力。
雖然這只是一項初步研究,但看來已是一個令人興奮的研究方向,此種模型能夠更好地在未來的迭代中分配獎勵,以改善指令遵循,實現(xiàn)一種良性循環(huán)。
這種方法也為更復(fù)雜的判斷方法開辟了一定的可能性。例如,大模型可以通過搜索數(shù)據(jù)庫來驗證其答案的準(zhǔn)確性,從而獲得更準(zhǔn)確和可靠的輸出。