天天av天天操_97成人在线免费视频_少妇一级淫免费播放_欧美污视频网站_天天爽夜夜爽一区二区三区_久久亚洲中文字幕无码_久久午夜夜伦鲁鲁一区二区_日本特黄a级片_亚洲五月天综合_91精品国产毛片武则天_女人被男人躁得好爽免费视频 _8x8ⅹ国产精品一区二区二区

玩一玩游戲

您的位置：玩一玩 > 新聞頻道 > 熱點資訊 > 正文

UCLA華人團隊提出LLM自我對弈系統超GPT-4專家模型指導效果

2024-02-04 14:04:30來源：未知編輯：Reset

來自UCLA的華人團隊提出一種全新的LLM自我對弈系統，能夠讓LLM自我合成數據，自我微調提升性能，甚至超過了用GPT-4作為專家模型指導的效果。

合成數據已經成為了大語言模型進化之路上最重要的一塊基石了。

在去年底，有網友扒出前OpenAI首席科學家Ilya曾經在很多場合表示過，LLM的發展不存在數據瓶頸，合成數據可以解決大部分的問題。

英偉達高級科學家Jim Fan在看了最近的一批論文后也認為，使用合成數據，再加上傳統用于游戲和圖像生成的技術思路，可以讓LLM完成大幅度的自我進化。

而正式提出這個方法的論文，是由來自UCLA的華人團隊。

論文地址：https://arxiv.org/abs/2401.01335v1

他們通過自我對弈機制（SPIN）生成合成數據，再通過自我微調的方法，不使用新的數據集，讓性能較弱的LLM在Open LLM Leaderboard Benchmark上將平均分從58.14提升至63.16。

研究人員提出了一種名為SPIN的自我微調的方法，通過自我對弈的方式——LLM與其前一輪迭代版本進行對抗，從而逐步提升語言模型的性能。

這樣就無需額外的人類標注數據或更高級語言模型的反饋，也能完成模型的自我進化。

主模型和對手模型的參數完全一致。用兩個不同的版本進行自我對弈。

對弈過程用公式可以概括為：

自我對弈的訓練方式，總結起來思路大概是這樣：

通過訓練主模型來區分對手模型生成的響應和人類目標響應，對手模型是輪迭代獲得的語言模型，目標是生成盡可能難以區分的響應。

假設第t輪迭代得到的語言模型參數為θt，則在第t+1輪迭代中，使用θt作為對手玩家,針對監督微調數據集中每個prompt x，使用θt生成響應y'。

然后優化新語言模型參數θt+1,使其可以區分y'和監督微調數據集中人類響應y。如此可以形成一個漸進的過程,逐步逼近目標響應分布。

這里，主模型的損失函數采用對數損失，考慮y和y'的函數值差。

對手模型加入KL散度正則化，防止模型參數偏離太多。

具體的對抗博弈訓練目標如公式4.7所示。從理論分析可以看出,當語言模型的響應分布等于目標響應分布時,優化過程收斂。

如果使用對弈之后生成的合成數據進行訓練，再使用SPIN進行自我微調，能有效提高LLM的性能。

但之后在初始的微調數據上再次簡單地微調卻又會導致性能下降。

而SPIN僅需要初始模型本身和現有的微調數據集，就能使得LLM通過SPIN獲得自我提升。

特別是，SPIN甚至超越了通過DPO使用額外的GPT-4偏好數據訓練的模型。

而且實驗還表明，迭代訓練比更多epoch的訓練能更加有效地提升模型性能。

延長單次迭代的訓練持續時間不會降低SPIN的性能，但會達到極限。

迭代次數越多，SPIN的效果的就越明顯。

網友在看完這篇論文之后感嘆：

合成數據將主宰大語言模型的發展，對于大語言模型的研究者來說將會是非常好的消息！

01 自我對弈讓LLM能不斷提高

具體來說，研究人員開發的SPIN系統，是由兩個相互影響的模型相互促進的系統。

用

表示的前一次迭代t的LLM，研究人員使用它來生成對人工注釋的SFT數據集中的提示x的響應y。

接下來的目標是找到一個新的LLM

能夠區分

生成的響應y和人類生成的響應y'。

這個過程可以看作是一個兩人游戲：

主要玩家或新的LLM

試圖辨別對手玩家的響應和人類生成的響應，而對手或舊的LLM

生成響應與人工注釋的SFT數據集中的數據盡可能相似。

通過對舊的

進行微調而獲得的新LLM

更喜歡

的響應，從而產生與

更一致的分布

在下一次迭代中，新獲得的LLM

成為響應生成的對手，自我對弈過程的目標是LLM最終收斂到

使得最強的LLM不再能夠區分其先前生成的響應版本和人類生成的版本。

02 如何使用SPIN提升模型性能

研究人員設計了個兩人游戲，其中主要模型的目標是區分LLM生成的響應和人類生成的響應。與此同時，對手的作用是產生與人類的反應無法區分的反應。研究人員的方法的核心是訓練主要模型。

首先說明如何訓練主要模型來區分LLM的回復和人類的回復。

研究人員方法的核心是自我博弈機制，其中主玩家和對手都是相同的LLM，但來自不同的迭代。

更具體地說，對手是上一次迭代中的舊LLM，而主玩家是當前迭代中要學習的新LLM。在迭代t+1時包括以下兩個步驟：（1）訓練主模型，（2）更新對手模型。

訓練主模型

首先，研究人員將說明如何訓練主玩家區分LLM反應和人類反應。受積分概率度量（IPM）的啟發，研究人員制定了目標函數：

更新對手模型

對手模型的目標是找到更好的LLM，使其產生的響應與主模型的p數據無異。

03 實驗

SPIN有效提升基準性能

研究人員使用HuggingFace Open LLM Leaderboard作為廣泛的評估來證明 SPIN的有效性。

在下圖中，研究人員將經過0到3次迭代后通過SPIN微調的模型與基本模型zephyr-7b-sft-full的性能進行了比較。

研究人員可以觀察到，SPIN通過進一步利用SFT數據集，在提高模型性能方面表現出了顯著的效果，而基礎模型已經在該數據集上進行了充分的微調。

在第0次迭代中，模型響應是從zephyr-7b-sft-full生成的，研究人員觀察到平均得分總體提高了2.66%。

在TruthfulQA和GSM8k基準測試中，這一改進尤其顯著，分別提高了超過5%和10%。

在迭代1中，研究人員采用迭代0中的LLM模型來生成SPIN的新響應，遵循算法1中概述的過程。

此迭代平均產生1.32%的進一步增強，在Arc Challenge和TruthfulQA基準測試中尤其顯著。

隨后的迭代延續了各種任務增量改進的趨勢。同時，迭代t+1時的改進自然更小

zephyr-7b-beta是從zephyr-7b-sft-full衍生出來的模型，使用DPO在大約62k個偏好數據上訓練而成。

研究人員注意到，DPO需要人工輸入或高級語言模型反饋來確定偏好，因此數據生成是一個相當昂貴的過程。

相比之下，研究人員的SPIN只需要初始模型本身就可以。

此外，與需要新數據源的DPO不同，研究人員的方法完全利用現有的SFT數據集。

下圖顯示了SPIN在迭代0和1（采用50k SFT數據）與DPO訓練的性能比較。

研究人員可以觀察到，雖然DPO利用了更多新來源的數據，但基于現有SFT數據的SPIN從迭代1開始，SPIN甚至超過了DPO的性能、SPIN在排行榜基準測試中的表現甚至超過了DPO。

本站發布此文僅為傳遞信息，不代表本站認同此觀點或證實其描述

相關閱讀

新聞
攻略
原創
排行
手游
PC游戲
小游戲
修改器

天天av天天操_97成人在线免费视频_少妇一级淫免费播放_欧美污视频网站_天天爽夜夜爽一区二区三区_久久亚洲中文字幕无码_久久午夜夜伦鲁鲁一区二区_日本特黄a级片_亚洲五月天综合_91精品国产毛片武则天_女人被男人躁得好爽免费视频 _8x8ⅹ国产精品一区二区二区

亚洲精品123区| 午夜精品影院| 免费在线观看视频一区| 一本综合精品| 国产视频一区欧美| 性色av一区二区怡红| 久久国产精品亚洲77777| 鲁大师成人一区二区三区| 91久久中文| 国产乱人伦精品一区| 日本少妇一区二区| 麻豆视频一区二区| 捆绑调教日本一区二区三区| 国产中文在线播放| 99成人在线| 精品视频高潮| 亚洲五月婷婷| 综合欧美亚洲| 亚洲特级毛片| 欧美日韩在线观看首页| 午夜亚洲福利在线老司机| 国产精品毛片久久久| 你懂的国产精品| 婷婷综合六月| 色婷婷成人网| 色天使综合视频| 你懂的国产精品| 日本欧美一区二区在线观看| 久久国产88| 亚洲自拍另类| 丝袜美腿一区二区三区| 亚洲免费中文| 六月婷婷一区| 91精品国产自产观看在线 | 欧美另类综合| 美女少妇全过程你懂的久久| 日韩精品中文字幕第1页| 久久精品五月| 成人精品亚洲| 亚洲神马久久| 欧美自拍一区| 国产精品欧美在线观看| 久久av影院| 免费污视频在线一区| 91精品国产成人观看| 高清精品久久| 亚洲精品99| 国产日韩欧美一区二区三区在线观看| 91精品美女| 日韩中文视频| 欧美一区不卡| av资源亚洲| 日本三级亚洲精品| 亚洲一区二区三区高清| 国产精品不卡| 国产亚洲毛片在线| 国产色噜噜噜91在线精品| 国模一区二区三区| 精品少妇一区| 欧美天堂一区二区| 国产精品嫩草99av在线| 亚洲一级少妇| 精品一区av| 国产精品美女午夜爽爽| 只有精品亚洲| 蜜芽一区二区三区| 国产日韩欧美三区| 日韩欧美高清一区二区三区| 亚洲www啪成人一区二区| 精品国产一区二| 久久99国产精品视频| 九九99久久精品在免费线bt| 久久99影视| 精品在线网站观看| 中文av在线全新| 亚洲无线一线二线三线区别av| 欧美成人午夜| 亚洲精品一区二区在线播放∴| 蜜臀91精品一区二区三区| 婷婷精品在线| 精品国产亚洲日本| 在线手机中文字幕| 九九综合九九| 日韩高清电影免费| sm捆绑调教国产免费网站在线观看| 免费一区二区三区在线视频| 国产精品毛片久久| 九九久久婷婷| 国产日韩在线观看视频| av一区在线| 欧美亚洲自偷自偷| 亚洲高清久久| 国产精品亚洲欧美| 美女少妇全过程你懂的久久| 91精品一区| 日韩中文字幕区一区有砖一区 | 精品一区免费| 国产精品xx| 日韩黄色免费网站| 99成人超碰| 色偷偷偷在线视频播放| 一区二区91| 91成人网在线观看| 久久久久久色 | 日韩成人精品一区| 亚洲人成在线影院| 亚洲欧洲午夜| 国产精品老牛| 亚洲人成网站在线在线观看| 99在线|亚洲一区二区| 米奇777超碰欧美日韩亚洲| 亚洲成人av观看 | 国产视频一区在线观看一区免费| 激情久久99| 国产一区二区久久久久| 国产欧美日韩综合一区在线播放| 丝瓜av网站精品一区二区| 免费高清在线一区| 日韩精品第二页| 国产高清视频一区二区| 精品91福利视频| 99久久精品费精品国产| 欧美日韩国产精品免费观看| 欧美日韩水蜜桃| 美国欧美日韩国产在线播放| 国产伦乱精品| 国产综合精品一区| 免费观看日韩电影| 国产亚洲观看| 欧洲激情综合| 91精品国产自产在线丝袜啪| 国产精品久久| 成午夜精品一区二区三区软件| 国产在线看片免费视频在线观看| 日韩不卡免费高清视频| 美女av在线免费看| 天堂av在线一区| 欧美~级网站不卡| 国产一级成人av| 欧美成人午夜| 激情综合五月| 欧美日韩一区二区三区在线电影| 精品视频免费| 四虎国产精品免费久久| 九九在线精品| 欧美日韩尤物久久| 91免费精品| 中文在线а√在线8| 久久狠狠久久| 91精品视频一区二区| 中文日韩在线| 久久国产99| 亚洲欧洲免费| 久久aⅴ国产紧身牛仔裤| 日韩在线二区| 婷婷亚洲五月| 久久亚洲美女| 亚洲国产成人精品女人| 91精品国产91久久久久久黑人| 精品一区91| 亚洲国内欧美| 奶水喷射视频一区| 91精品国产自产观看在线| 国产免费久久| 伊伊综合在线| 日韩专区一卡二卡| 国产欧美一区二区三区米奇| 久久亚洲资源中文字| 久久人人97超碰国产公开结果| 日韩毛片视频| 在线一区二区三区视频| 免费亚洲婷婷| 久久人人97超碰国产公开结果| 在线中文字幕播放| 亚洲a成人v| 久久久9色精品国产一区二区三区| 在线综合视频| 日韩欧美一区二区三区在线视频| 丝袜亚洲精品中文字幕一区| 97精品国产一区二区三区| 亚洲欧美日韩综合国产aⅴ| 国产精品欧美三级在线观看| 免费毛片在线不卡| 国产一区二区三区成人欧美日韩在线观看| 91精品一区二区三区综合在线爱| 日韩福利视频网| 久久aⅴ国产紧身牛仔裤| 日韩理论视频| 国产精品自在| 亚洲aⅴ网站| 日本成人中文字幕在线视频| 亚洲免费高清| 国产一区观看| 午夜欧美精品| 蜜桃一区二区三区在线| 99riav1国产精品视频| 鲁大师成人一区二区三区| 欧美美女一区| 一区二区三区四区日韩| 青草国产精品久久久久久|