DualLearning
#Pocket
#NLP
#ReinforcementLearning
#RLVR
Issue Date: 2025-08-21 [Paper Note] DuPO: Enabling Reliable LLM Self-Verification via Dual Preference Optimization, Shuaijie She+, arXiv'25 SummaryDuPOは、注釈なしのフィードバックを生成する二重学習に基づく好み最適化フレームワークで、強化学習の高価なラベル依存と二重タスクペアの制限に対処。プライマルタスクの入力を分解し、未知の部分を再構築する二重タスクを構築することで、非可逆タスクへの適用範囲を広げる。実験により、翻訳品質や数学的推論の精度が大幅に向上し、DuPOはスケーラブルで一般的なLLM最適化の手法として位置付けられる。 Comment元ポスト:https://x.com/rosinality/status/1958413194307002415?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q関連:
・2508解説:https://x.com/gm8xx8/status/1959926238065127724?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q #NeuralNetwork #MachineTranslation #Pocket #ReinforcementLearning #NeurIPS
Issue Date: 2025-08-21 [Paper Note] Dual Learning for Machine Translation, Yingce Xia+, NIPS'16 Summaryデュアルラーニングメカニズムを用いたニューラル機械翻訳(dual-NMT)を提案。プライマルタスク(英語からフランス語)とデュアルタスク(フランス語から英語)を通じて、ラベルのないデータから自動的に学習。強化学習を用いて互いに教え合い、モデルを更新。実験により、モノリンガルデータから学習しつつ、バイリンガルデータと同等の精度を達成することが示された。 CommentモノリンガルコーパスD_A, D_Bで学習した言語モデルLM_A, LM_Bが与えられた時、翻訳モデルΘ_A, Θ_Bのの翻訳の自然さ(e.g., 尤度)をrewardとして与え、互いのモデルの翻訳(プライマルタスク)・逆翻訳(デュアルタスク)の性能が互いに高くなるように強化学習するような枠組みを提案。パラレルコーパス不要でモノリンガルコーパスのみで、人手によるアノテーション無しで学習ができる。
Issue Date: 2025-08-21 [Paper Note] DuPO: Enabling Reliable LLM Self-Verification via Dual Preference Optimization, Shuaijie She+, arXiv'25 SummaryDuPOは、注釈なしのフィードバックを生成する二重学習に基づく好み最適化フレームワークで、強化学習の高価なラベル依存と二重タスクペアの制限に対処。プライマルタスクの入力を分解し、未知の部分を再構築する二重タスクを構築することで、非可逆タスクへの適用範囲を広げる。実験により、翻訳品質や数学的推論の精度が大幅に向上し、DuPOはスケーラブルで一般的なLLM最適化の手法として位置付けられる。 Comment元ポスト:https://x.com/rosinality/status/1958413194307002415?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q関連:
・2508解説:https://x.com/gm8xx8/status/1959926238065127724?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q #NeuralNetwork #MachineTranslation #Pocket #ReinforcementLearning #NeurIPS
Issue Date: 2025-08-21 [Paper Note] Dual Learning for Machine Translation, Yingce Xia+, NIPS'16 Summaryデュアルラーニングメカニズムを用いたニューラル機械翻訳(dual-NMT)を提案。プライマルタスク(英語からフランス語)とデュアルタスク(フランス語から英語)を通じて、ラベルのないデータから自動的に学習。強化学習を用いて互いに教え合い、モデルを更新。実験により、モノリンガルデータから学習しつつ、バイリンガルデータと同等の精度を達成することが示された。 CommentモノリンガルコーパスD_A, D_Bで学習した言語モデルLM_A, LM_Bが与えられた時、翻訳モデルΘ_A, Θ_Bのの翻訳の自然さ(e.g., 尤度)をrewardとして与え、互いのモデルの翻訳(プライマルタスク)・逆翻訳(デュアルタスク)の性能が互いに高くなるように強化学習するような枠組みを提案。パラレルコーパス不要でモノリンガルコーパスのみで、人手によるアノテーション無しで学習ができる。