RolePlaying


Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #ReinforcementLearning #PostTraining Issue Date: 2026-01-30 GPT Summary- LLMを用いたロールプレイングは、友情やコンテンツ制作などに重要な役割を果たしているが、内面的思考のシミュレーションが課題である。本研究では、認知レベルのペルソナシミュレーションを実現するためのHERという統一フレームワークを提案し、二層の思考を導入。逆方向からのエンジニアリングを通じて推論強化型ロールプレイデータを生成し、人間の好みに合った報酬モデルを構築。Qwen3-32Bを基にした\methodモデルは監視学習と強化学習で訓練され、CoSERベンチマークで30.26の改善、Minimaxロールプレイベンチで14.97の向上を達成した。データセットとモデルは今後の研究に提供される。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#Article #Multi #NLP #LanguageModel #Supervised-FineTuning (SFT) #Proprietary #Japanese #DPO #PostTraining #InstructionFollowingCapability #Medical Issue Date: 2026-01-29 Comment

関連:
- [Paper Note] Generalizing Verifiable Instruction Following, Valentina Pyatkin+, NeurIPS'25, 2025.07
- JFBench: 実務レベルの日本語指示追従性能を備えた生成AIを目指して, PFN, 2026.01

non-thinkingモデルである点に注意