天天av天天操_97成人在线免费视频_少妇一级淫免费播放_欧美污视频网站_天天爽夜夜爽一区二区三区_久久亚洲中文字幕无码_久久午夜夜伦鲁鲁一区二区_日本特黄a级片_亚洲五月天综合_91精品国产毛片武则天_女人被男人躁得好爽免费视频 _8x8ⅹ国产精品一区二区二区

您的位置:玩一玩 > 新聞頻道 > 熱點資訊 > 正文

自我獎勵的語言模型:大模型生成自己的微調(diào)數(shù)據(jù)

2024-01-22 13:35:57來源:未知編輯:Reset

大模型領(lǐng)域中,微調(diào)是改進模型性能的重要一步。隨著開源大模型逐漸變多,人們總結(jié)出了很多種微調(diào)方式,其中一些取得了很好的效果。

最近,來自 Meta、紐約大學(xué)的研究者用「自我獎勵方法」,讓大模型自己生成自己的微調(diào)數(shù)據(jù),給人帶來了一點新的震撼。

在新方法中,作者對 Llama 2 70B 進行了三個迭代的微調(diào),生成的模型在 AlpacaEval 2.0 排行榜上優(yōu)于一眾現(xiàn)有重要大模型,包括 Claude 2、Gemini Pro 和 GPT-4。

因此,論文剛剛發(fā)上 arXiv 幾個小時就引起了人們的注意。

雖然目前方法還沒有開源,但是人們認(rèn)為論文中使用的方法描述清晰,復(fù)現(xiàn)起來應(yīng)該不難。

眾所周知,使用人類偏好數(shù)據(jù)調(diào)整大語言模型(LLM)可以極大提高預(yù)訓(xùn)練模型的指令跟蹤性能。在 GPT 系列中,OpenAI 提出了人類反饋強化學(xué)習(xí) (RLHF) 的標(biāo)準(zhǔn)方法,讓大模型可以從人類偏好中學(xué)習(xí)獎勵模型,再使得獎勵模型被凍結(jié)并用于使用強化學(xué)習(xí)訓(xùn)練 LLM,這種方法已獲得了巨大的成功。

最近出現(xiàn)的新思路是完全避免訓(xùn)練獎勵模型,并直接使用人類偏好來訓(xùn)練 LLM,如直接偏好優(yōu)化(DPO)。在以上兩種情況下,調(diào)優(yōu)都受到人類偏好數(shù)據(jù)的大小和質(zhì)量的瓶頸,并且在 RLHF 的情況下,調(diào)優(yōu)質(zhì)量還受到從它們訓(xùn)練的凍結(jié)獎勵模型的質(zhì)量的瓶頸。

在 Meta 的新工作中,作者提議訓(xùn)練一個自我改進的獎勵模型,該模型不是被凍結(jié),而是在 LLM 調(diào)整期間不斷更新,以避免這一瓶頸。

這種方法的關(guān)鍵是開發(fā)一個擁有訓(xùn)練期間所需的所有能力的智能體(而不是分為獎勵模型和語言模型),讓指令跟隨任務(wù)的預(yù)訓(xùn)練和多任務(wù)訓(xùn)練允許通過同時訓(xùn)練多個任務(wù)來實現(xiàn)任務(wù)遷移。

因此作者引入了自我獎勵語言模型,其智能體既充當(dāng)遵循模型的指令,為給定的提示生成響應(yīng),也可以根據(jù)示例生成和評估新指令,以添加到他們自己的訓(xùn)練集中。

新方法使用類似于迭代 DPO 的框架來訓(xùn)練這些模型。從種子模型開始,如圖 1 所示,在每次迭代中都有一個自指令創(chuàng)建過程,其中模型為新創(chuàng)建的提示生成候選響應(yīng),然后由同一模型分配獎勵。后者是通過 LLM-as-a-Judge 的提示來實現(xiàn)的,這也可以看作是指令跟隨任務(wù)。根據(jù)生成的數(shù)據(jù)構(gòu)建偏好數(shù)據(jù)集,并通過 DPO 訓(xùn)練模型的下一次迭代。

01 自我獎勵的語言模型

作者提出的方法首先假設(shè):可以訪問基本的預(yù)訓(xùn)練語言模型和少量人工注釋的種子數(shù)據(jù),然后建立一個模型,旨在同時擁有兩種技能:

1. 指令遵循:給出描述用戶請求的提示,能夠生成高質(zhì)量、有幫助(且無害)的響應(yīng)。

2. 自指令創(chuàng)建:能夠按照示例生成和評估新指令以添加到自己的訓(xùn)練集中。

使用這些技能是為了使模型能夠執(zhí)行自對準(zhǔn),即它們是用于使用人工智能反饋(AIF)迭代訓(xùn)練自身的組件。

自指令的創(chuàng)建包括生成候選響應(yīng),然后讓模型本身判斷其質(zhì)量,即它充當(dāng)自己的獎勵模型,從而取代對外部模型的需求。這是通過 LLM-as-a-Judge 機制實現(xiàn)的 [Zheng et al., 2023b],即通過將響應(yīng)評估制定為指令跟隨任務(wù)。這個自行創(chuàng)建的 AIF 偏好數(shù)據(jù)被用作訓(xùn)練集。

所以在微調(diào)過程中,相同的模型被用于兩個角色:作為「學(xué)習(xí)者」和作為「法官」。基于新出現(xiàn)的法官角色,模型可以通過上下文微調(diào)來進一步提升性能。

整體的自對齊過程是一個迭代過程,通過以下步驟來進行:構(gòu)建一系列模型,每個模型都比上一個模型有所改進。在這其中重要的是,由于模型既可以提高其生成能力,又可以通過相同的生成機制作為自己的獎勵模型,這意味著獎勵模型本身可以通過這些迭代來改進,這就與獎勵模型固有的標(biāo)準(zhǔn)做法出現(xiàn)了不同。

研究者認(rèn)為,此種方式可以提高這些學(xué)習(xí)模型未來自我改進的潛力上限,消除限制性瓶頸。

圖 1 展示了該方法的概述。

02 實驗

在實驗中,研究者使用了 Llama 2 70B 作為基礎(chǔ)預(yù)訓(xùn)練模型。他們發(fā)現(xiàn),與基線種子模型相比,自獎勵 LLM 對齊不僅提高了指令跟隨表現(xiàn),獎勵建模能力也得到了提高。

這意味著在迭代訓(xùn)練中,模型能夠在給定的迭代中為自己提供比上一次迭代質(zhì)量更好的偏好數(shù)據(jù)集。雖然這種影響在現(xiàn)實世界中會趨于飽和,但提供了一種有趣的可能:這樣得到的獎勵模型(以及 LLM)要優(yōu)于僅從人類撰寫的原始種子數(shù)據(jù)里訓(xùn)練的模型。

在指令跟隨能力方面,實驗結(jié)果如圖 3 所示:

研究者在 AlpacaEval 2 排行榜上評估了自獎勵模型,結(jié)果如表 1 所示。

他們觀察到了與 head-to-head 評估相同的結(jié)論,即訓(xùn)練迭代的勝率比 GPT4-Turbo 高,從迭代 1 的 9.94%,到迭代 2 的 15.38%,再到迭代 3 的 20.44%。

同時,迭代 3 模型優(yōu)于許多現(xiàn)有模型,包括 Claude 2、Gemini Pro 和 GPT4 0613。

獎勵建模評估結(jié)果如表 2,結(jié)論包括:

EFT 增強比 SFT 基線有所改進。

使用 IFT+EFT 與單獨使用 IFT 相比,所有五個測量指標(biāo)都有所改進,例如,與人類的成對準(zhǔn)確率一致性從 65.1% 提高到 78.7%。

通過自我訓(xùn)練提高獎勵建模能力。進行一輪自我獎勵訓(xùn)練后,模型為下一次迭代提供自我獎勵的能力得到了提高,此外它的指令跟隨能力也得到了提高。

LLMas-a-Judge 提示的重要性。研究者使用了各種提示格式發(fā)現(xiàn),LLMas-a-Judge 提示在使用 SFT 基線時成對準(zhǔn)確率更高。

作者認(rèn)為,自我獎勵的訓(xùn)練方式既提高了模型的指令跟蹤能力,也提高了模型在迭代中的獎勵建模能力。

雖然這只是一項初步研究,但看來已是一個令人興奮的研究方向,此種模型能夠更好地在未來的迭代中分配獎勵,以改善指令遵循,實現(xiàn)一種良性循環(huán)。

這種方法也為更復(fù)雜的判斷方法開辟了一定的可能性。例如,大模型可以通過搜索數(shù)據(jù)庫來驗證其答案的準(zhǔn)確性,從而獲得更準(zhǔn)確和可靠的輸出。

本站發(fā)布此文僅為傳遞信息,不代表本站認(rèn)同此觀點或證實其描述

相關(guān)閱讀

天天av天天操_97成人在线免费视频_少妇一级淫免费播放_欧美污视频网站_天天爽夜夜爽一区二区三区_久久亚洲中文字幕无码_久久午夜夜伦鲁鲁一区二区_日本特黄a级片_亚洲五月天综合_91精品国产毛片武则天_女人被男人躁得好爽免费视频 _8x8ⅹ国产精品一区二区二区
蜜桃视频一区二区三区| 免费不卡中文字幕在线| 久久av影院| 午夜在线精品偷拍| 久久蜜桃精品| 久久国产麻豆精品| 性色av一区二区怡红| 欧美va亚洲va日韩∨a综合色| 久久天堂影院| 日韩av资源网| 亚洲天堂av资源在线观看| 99精品视频精品精品视频| 久久中文欧美| 精品网站999| 精品国产99| 精品丝袜久久| 91麻豆国产自产在线观看亚洲| 91精品国产一区二区在线观看| 免费在线欧美视频| 亚洲深夜福利在线观看| 蜜桃av一区二区在线观看 | 日韩av电影一区| 亚洲精品综合| 日韩av黄色在线| 国产一级成人av| 国产伦乱精品| 伊人久久国产| 麻豆亚洲精品| 欧美偷窥清纯综合图区| 国产成人免费| 亚洲国产一区二区三区在线播放| 99精品美女| 国产一区成人| 91精品啪在线观看国产爱臀| 精品国产欧美日韩| 久久久久久黄| 美国欧美日韩国产在线播放| 日韩国产在线观看| 精品国产鲁一鲁****| 日韩精品永久网址| 亚洲一区二区动漫| 国产精品久久久久久模特| 国产精品麻豆久久| 91成人网在线观看| 日本a口亚洲| 欧美国产美女| 国产毛片久久| 麻豆精品一区二区综合av| 成人高清一区| 在线精品视频一区| 韩国久久久久久| 国产亚洲毛片在线| 韩日一区二区| 免费久久精品视频| 国产精品毛片久久| 亚洲a成人v| 国产一区日韩一区| 精品久久亚洲| 日韩精品欧美精品| 不卡av一区二区| 麻豆国产精品视频| 久久福利毛片| 国产福利电影在线播放| 一本一道久久a久久| 久久国产毛片| 国产精品一区三区在线观看| 欧美日韩精品一本二本三本 | 91精品推荐| 国产精品白浆| 免费在线观看不卡| 日韩在线欧美| 久久国产三级| 亚洲最新av| 日韩精品网站| 久久久久久色 | av日韩中文| 国产亚洲欧美日韩在线观看一区二区 | 麻豆国产欧美一区二区三区| 国产精品美女| 久久高清免费| 日韩毛片视频| 亚洲欧洲美洲av| 色综合五月天| 91视频一区| 日韩不卡一区| 中文一区一区三区高中清不卡免费| 欧美一区精品| 国产免费播放一区二区| 97精品国产99久久久久久免费| 欧美在线综合| 亚洲在线免费| 亚洲伊人精品酒店| 日本不卡视频在线观看| 日韩三级久久| 日本精品一区二区三区在线观看视频 | 欧美一区91| 亚洲va久久久噜噜噜久久| 久热综合在线亚洲精品| 久久福利精品| 日本在线视频一区二区| 日韩精品欧美成人高清一区二区| 亚洲日韩视频| 国产精选一区| 免费在线亚洲| 日本а中文在线天堂| 正在播放日韩精品| 99久久激情| 欧美另类综合| 免费久久精品视频| 青青草国产精品亚洲专区无| 欧美日本三区| 国产一区二区三区免费在线| 国产99在线| 激情综合网五月| 中文无码日韩欧| 老司机免费视频一区二区| 91视频一区| 日韩午夜一区| 亚洲精品欧洲| 精品九九久久| 黄色不卡一区| 欧美亚洲三区| se01亚洲视频| 久久亚洲风情| 国产精品流白浆在线观看| 精品美女视频| 国产亚洲永久域名| 麻豆精品99| 国产午夜久久| 精品久久影院| 亚洲精品大全| 久久激情婷婷| 欧美视频一区| 色天使综合视频| 最新国产精品| 日韩精品一卡| 亚洲乱码久久| 久久久成人网| 欧美国产亚洲精品| 欧美成人基地 | 久久婷婷久久| 日韩av资源网| 欧美不卡视频| 国产极品一区| 老司机精品久久| 亚洲啊v在线| 国产亚洲一区二区三区不卡| 久久蜜桃av| 成人国产精选| 久久国产三级| 一区二区国产在线观看| 国产韩日影视精品| 精品久久91| 国产一级成人av| 免费日韩视频| 亚洲国产不卡| 伊人久久大香线蕉av不卡| 国产欧美精品| 日韩在线麻豆| 国产精品日本| 亚洲网站视频| 国产精品毛片一区二区在线看| 欧美自拍一区| 日韩一区二区三区高清在线观看| 亚洲婷婷在线| 国产一区日韩欧美| 欧美日韩一二| 欧美 日韩 国产精品免费观看| 国产成人免费av一区二区午夜| 欧美一区二区三区久久精品| 久久国产高清| 在线视频精品| 精品一区在线| 狠狠干成人综合网| 99久久精品国产亚洲精品| 日本欧美国产| 色在线视频观看| 新版的欧美在线视频| 国模精品一区| 麻豆精品久久久| 久久精品国产99国产| 国产精品一区二区三区美女| 国产亚洲高清在线观看| 日本成人中文字幕| 国产精品日本一区二区不卡视频| 欧美日韩一区二区国产| 国产精品对白| 日韩亚洲一区在线| 亚洲一级影院| 久久国产精品毛片| 亚洲专区视频| 久久国产麻豆精品| 精品国产乱码| 99久久亚洲精品蜜臀| 91超碰国产精品| 香蕉久久久久久久av网站| 亚洲va久久| 精品女同一区二区三区在线观看| 日韩大片在线| 亚洲精品国产偷自在线观看|