自我獎勵的語言模型：大模型生成自己的微調(diào)數(shù)據(jù)

2024-01-22 13:35:57來源：未知編輯：Reset

大模型領(lǐng)域中，微調(diào)是改進模型性能的重要一步。隨著開源大模型逐漸變多，人們總結(jié)出了很多種微調(diào)方式，其中一些取得了很好的效果。

最近，來自 Meta、紐約大學(xué)的研究者用「自我獎勵方法」，讓大模型自己生成自己的微調(diào)數(shù)據(jù)，給人帶來了一點新的震撼。

在新方法中，作者對 Llama 2 70B 進行了三個迭代的微調(diào)，生成的模型在 AlpacaEval 2.0 排行榜上優(yōu)于一眾現(xiàn)有重要大模型，包括 Claude 2、Gemini Pro 和 GPT-4。

因此，論文剛剛發(fā)上 arXiv 幾個小時就引起了人們的注意。

雖然目前方法還沒有開源，但是人們認(rèn)為論文中使用的方法描述清晰，復(fù)現(xiàn)起來應(yīng)該不難。

眾所周知，使用人類偏好數(shù)據(jù)調(diào)整大語言模型（LLM）可以極大提高預(yù)訓(xùn)練模型的指令跟蹤性能。在 GPT 系列中，OpenAI 提出了人類反饋強化學(xué)習(xí) (RLHF) 的標(biāo)準(zhǔn)方法，讓大模型可以從人類偏好中學(xué)習(xí)獎勵模型，再使得獎勵模型被凍結(jié)并用于使用強化學(xué)習(xí)訓(xùn)練 LLM，這種方法已獲得了巨大的成功。

最近出現(xiàn)的新思路是完全避免訓(xùn)練獎勵模型，并直接使用人類偏好來訓(xùn)練 LLM，如直接偏好優(yōu)化（DPO）。在以上兩種情況下，調(diào)優(yōu)都受到人類偏好數(shù)據(jù)的大小和質(zhì)量的瓶頸，并且在 RLHF 的情況下，調(diào)優(yōu)質(zhì)量還受到從它們訓(xùn)練的凍結(jié)獎勵模型的質(zhì)量的瓶頸。

在 Meta 的新工作中，作者提議訓(xùn)練一個自我改進的獎勵模型，該模型不是被凍結(jié)，而是在 LLM 調(diào)整期間不斷更新，以避免這一瓶頸。

這種方法的關(guān)鍵是開發(fā)一個擁有訓(xùn)練期間所需的所有能力的智能體（而不是分為獎勵模型和語言模型），讓指令跟隨任務(wù)的預(yù)訓(xùn)練和多任務(wù)訓(xùn)練允許通過同時訓(xùn)練多個任務(wù)來實現(xiàn)任務(wù)遷移。

因此作者引入了自我獎勵語言模型，其智能體既充當(dāng)遵循模型的指令，為給定的提示生成響應(yīng)，也可以根據(jù)示例生成和評估新指令，以添加到他們自己的訓(xùn)練集中。

新方法使用類似于迭代 DPO 的框架來訓(xùn)練這些模型。從種子模型開始，如圖 1 所示，在每次迭代中都有一個自指令創(chuàng)建過程，其中模型為新創(chuàng)建的提示生成候選響應(yīng)，然后由同一模型分配獎勵。后者是通過 LLM-as-a-Judge 的提示來實現(xiàn)的，這也可以看作是指令跟隨任務(wù)。根據(jù)生成的數(shù)據(jù)構(gòu)建偏好數(shù)據(jù)集，并通過 DPO 訓(xùn)練模型的下一次迭代。

01 自我獎勵的語言模型

作者提出的方法首先假設(shè)：可以訪問基本的預(yù)訓(xùn)練語言模型和少量人工注釋的種子數(shù)據(jù)，然后建立一個模型，旨在同時擁有兩種技能：

1. 指令遵循：給出描述用戶請求的提示，能夠生成高質(zhì)量、有幫助（且無害）的響應(yīng)。

2. 自指令創(chuàng)建：能夠按照示例生成和評估新指令以添加到自己的訓(xùn)練集中。

使用這些技能是為了使模型能夠執(zhí)行自對準(zhǔn)，即它們是用于使用人工智能反饋（AIF）迭代訓(xùn)練自身的組件。

自指令的創(chuàng)建包括生成候選響應(yīng)，然后讓模型本身判斷其質(zhì)量，即它充當(dāng)自己的獎勵模型，從而取代對外部模型的需求。這是通過 LLM-as-a-Judge 機制實現(xiàn)的 [Zheng et al., 2023b]，即通過將響應(yīng)評估制定為指令跟隨任務(wù)。這個自行創(chuàng)建的 AIF 偏好數(shù)據(jù)被用作訓(xùn)練集。

所以在微調(diào)過程中，相同的模型被用于兩個角色：作為「學(xué)習(xí)者」和作為「法官」。基于新出現(xiàn)的法官角色，模型可以通過上下文微調(diào)來進一步提升性能。

整體的自對齊過程是一個迭代過程，通過以下步驟來進行：構(gòu)建一系列模型，每個模型都比上一個模型有所改進。在這其中重要的是，由于模型既可以提高其生成能力，又可以通過相同的生成機制作為自己的獎勵模型，這意味著獎勵模型本身可以通過這些迭代來改進，這就與獎勵模型固有的標(biāo)準(zhǔn)做法出現(xiàn)了不同。

研究者認(rèn)為，此種方式可以提高這些學(xué)習(xí)模型未來自我改進的潛力上限，消除限制性瓶頸。

圖 1 展示了該方法的概述。

02 實驗

在實驗中，研究者使用了 Llama 2 70B 作為基礎(chǔ)預(yù)訓(xùn)練模型。他們發(fā)現(xiàn)，與基線種子模型相比，自獎勵 LLM 對齊不僅提高了指令跟隨表現(xiàn)，獎勵建模能力也得到了提高。

這意味著在迭代訓(xùn)練中，模型能夠在給定的迭代中為自己提供比上一次迭代質(zhì)量更好的偏好數(shù)據(jù)集。雖然這種影響在現(xiàn)實世界中會趨于飽和，但提供了一種有趣的可能：這樣得到的獎勵模型（以及 LLM）要優(yōu)于僅從人類撰寫的原始種子數(shù)據(jù)里訓(xùn)練的模型。

在指令跟隨能力方面，實驗結(jié)果如圖 3 所示：

研究者在 AlpacaEval 2 排行榜上評估了自獎勵模型，結(jié)果如表 1 所示。

他們觀察到了與 head-to-head 評估相同的結(jié)論，即訓(xùn)練迭代的勝率比 GPT4-Turbo 高，從迭代 1 的 9.94%，到迭代 2 的 15.38%，再到迭代 3 的 20.44%。

同時，迭代 3 模型優(yōu)于許多現(xiàn)有模型，包括 Claude 2、Gemini Pro 和 GPT4 0613。

獎勵建模評估結(jié)果如表 2，結(jié)論包括：

EFT 增強比 SFT 基線有所改進。

使用 IFT+EFT 與單獨使用 IFT 相比，所有五個測量指標(biāo)都有所改進，例如，與人類的成對準(zhǔn)確率一致性從 65.1% 提高到 78.7%。

通過自我訓(xùn)練提高獎勵建模能力。進行一輪自我獎勵訓(xùn)練后，模型為下一次迭代提供自我獎勵的能力得到了提高，此外它的指令跟隨能力也得到了提高。

LLMas-a-Judge 提示的重要性。研究者使用了各種提示格式發(fā)現(xiàn)，LLMas-a-Judge 提示在使用 SFT 基線時成對準(zhǔn)確率更高。

作者認(rèn)為，自我獎勵的訓(xùn)練方式既提高了模型的指令跟蹤能力，也提高了模型在迭代中的獎勵建模能力。

雖然這只是一項初步研究，但看來已是一個令人興奮的研究方向，此種模型能夠更好地在未來的迭代中分配獎勵，以改善指令遵循，實現(xiàn)一種良性循環(huán)。

這種方法也為更復(fù)雜的判斷方法開辟了一定的可能性。例如，大模型可以通過搜索數(shù)據(jù)庫來驗證其答案的準(zhǔn)確性，從而獲得更準(zhǔn)確和可靠的輸出。

本站發(fā)布此文僅為傳遞信息，不代表本站認(rèn)同此觀點或證實其描述

自我獎勵的語言模型：大模型生成自己的微調(diào)數(shù)據(jù)

相關(guān)閱讀