https://blog.philip-huang.tech/?page=reason-to-reject
研究首次系統性地探討了使用語言反饋(判斷)來對齊 LLM 的可能性,提出了 Contrastive Unlikelihood Training (CUT) 框架。
實驗結果表明,CUT 僅需 1317 筆訓練資料便能超越 175B 的 DaVinci003。並且進一步分析表明,判斷在LLM對齊中具有比 RL 獎勵更大的潛力。
問題設定
假設有一組指令-回應-判斷三元組 $(x, y, j)$,其中指令 $x = [x_1, \ldots, x_M]$,回應 $y = [y_1, \ldots, y_N]$,判斷 $j = [j_1, \ldots, j_Q]$ 為長度分別為 $M$、$N$ 和 $Q$ 的符號序列。回應可能存在缺陷或被認為完全滿意。判斷提供了對回應的優缺點的分析,這些分析可以由人類或 AI 模型起草。將 LLMs 與判斷對齊的目標是使 LLMs 保留在優點中提到的適當行為,更重要的是,解決缺點以防止未來的不當行為。
https://blog.philip-huang.tech/?page=reason-to-reject
研究首次系統性地探討了使用語言反饋(判斷)來對齊 LLM 的可能性,提出了 Contrastive Unlikelihood Training (CUT) 框架。
實驗結果表明,CUT 僅需 1317 筆訓練資料便能超越 175B 的 DaVinci003。並且進一步分析表明,判斷在LLM對齊中具有比 RL 獎勵更大的潛力。
問題設定
假設有一組指令-回應-判斷三元組$(x, y, j)$ ,其中指令 $x = [x_1, \ldots, x_M]$ ,回應 $y = [y_1, \ldots, y_N]$ ,判斷 $j = [j_1, \ldots, j_Q]$ 為長度分別為 $M$ 、$N$ 和 $Q$ 的符號序列。回應可能存在缺陷或被認為完全滿意。判斷提供了對回應的優缺點的分析,這些分析可以由人類或 AI 模型起草。將 LLMs 與判斷對齊的目標是使 LLMs 保留在優點中提到的適當行為,更重要的是,解決缺點以防止未來的不當行為。