Personality
[Paper Note] CharacterFlywheel: Scaling Iterative Improvement of Engaging and Steerable LLMs in Production, Yixin Nie+, arXiv'26, 2026.03
Paper/Blog Link My Issue
#NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #Evaluation #Annotation #DPO #PostTraining #Selected Papers/Blogs Issue Date: 2026-03-04 GPT Summary- CharacterFlywheelは、Instagram、WhatsApp、Messenger向けのLLM改善のための反復プロセスであり、LLaMA 3.1を基に15世代のモデルを洗練しました。2024年7月から2025年4月にかけてのA/Bテストで、8モデル中7モデルが新たなエンゲージメント向上を示し、最大8.8%の幅、19.4%の深さで改善しました。指示遵守率も大幅に向上し、過学習防止策やダイナミクスの対策も考慮されています。この研究は、数百万人のユーザー向けのLLM活用における科学的理解を進めます。 Comment
元ポスト:
解説:
[Paper Note] The Assistant Axis: Situating and Stabilizing the Default Persona of Language Models, Christina Lu+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #Safety #read-later Issue Date: 2026-01-20 GPT Summary- 大規模言語モデルはデフォルトで「助けるアシスタント」のアイデンティティを持ち、ペルソナ空間の構造を調査することで、モデルの助ける行動と自己認識のバランスを探る。特に、「アシスタント軸」を中心にペルソナを調整することで、モデルの行動を安定化させ、有害な行動を抑制することが可能になる。この研究により、ペルソナドリフトの予測が可能となり、モデルをより一貫したペルソナに固定する方法が示唆される。 Comment
元ポスト:
[Paper Note] Open Character Training: Shaping the Persona of AI Assistants through Constitutional AI, Sharan Maiya+, arXiv'25, 2025.11
Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #PostTraining Issue Date: 2026-02-28 GPT Summary- キャラクター訓練は現代のチャットボットのペルソナ形成において重要であり、既存の研究が不足しています。本研究では、Constitutional AIを用いて、より効果的にアシスタントのペルソナを形成する初の実装を紹介します。ユーモラスや思いやりのある11種類のキャラクターを用いて、3つの人気モデルをファインチューニングし、嗜好の分析を通じて変化を追跡します。これにより、敵対的プロンプティングに対する耐性と一貫性のある生成が得られることを示しました。また、一般的能力への影響は minimal です。詳細はオープンソースとして公開されています。 Comment
元ポスト:
[Paper Note] Consistently Simulating Human Personas with Multi-Turn Reinforcement Learning, Marwa Abdulhai+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#Multi #Metrics #NLP #LanguageModel #ReinforcementLearning #Evaluation #Conversation #NeurIPS Issue Date: 2025-11-06 GPT Summary- LLMを用いた対話におけるペルソナの一貫性を評価・改善するフレームワークを提案。3つの自動メトリックを定義し、マルチターン強化学習でファインチューニングを行うことで、一貫性を55%以上向上させる。 Comment
pj page: https://sites.google.com/view/consistent-llms
元ポスト:
[Paper Note] Emergent Coordination in Multi-Agent Language Models, Christoph Riedl, arXiv'25, 2025.10
Paper/Blog Link My Issue
#Multi #Analysis #MachineLearning #NLP #AIAgents #TheoryOfMind #read-later #Selected Papers/Blogs Issue Date: 2025-10-21 GPT Summary- 本研究では、マルチエージェントLLMシステムが高次の構造を持つかどうかを情報理論的フレームワークを用いて検証。実験では、エージェント間のコミュニケーションがない状況で、時間的相乗効果が観察される一方、調整された整合性は見られなかった。ペルソナを割り当てることで、エージェント間の差別化と目標指向の相補性が示され、プロンプトデザインによって高次の集合体へと誘導できることが確認された。結果は、効果的なパフォーマンスには整合性と相補的な貢献が必要であることを示唆している。 Comment
元ポスト:
非常にシンプルな設定でマルチエージェントによるシナジーが生じるか否か、そのための条件を検証している模様。小規模モデルだとシナジーは生じず、ペルソナ付与とTheory of Mindを指示すると効果が大きい模様
[Paper Note] CAPE: Context-Aware Personality Evaluation Framework for Large Language Models, Jivnesh Sandhan+, EMNLP'25 Findings, 2025.08
Paper/Blog Link My Issue
#Dataset #LanguageModel #ContextAware #Evaluation #EMNLP #Findings Issue Date: 2025-09-24 GPT Summary- 心理測定テストをLLMsの評価に適用するため、文脈対応パーソナリティ評価(CAPE)フレームワークを提案。従来の孤立した質問アプローチから、会話の履歴を考慮した応答の一貫性を定量化する新指標を導入。実験により、会話履歴が応答の一貫性を高める一方で、パーソナリティの変化も引き起こすことが明らかに。特にGPTモデルは堅牢性を示し、Gemini-1.5-FlashとLlama-8Bは感受性が高い。CAPEをロールプレイングエージェントに適用すると、一貫性が改善され人間の判断と一致することが示された。 Comment
元ポスト:
Persona vectors: Monitoring and controlling character traits in language models, Anthropic, 2025.08
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #ActivationSteering/ITI Issue Date: 2025-08-02 Comment
元ポスト:
Full Paper: https://arxiv.org/abs/2507.21509
ITIでよく使われる手法を用いてLLMのpersonalityに関するsteeringベクトルを抽出して適用する(evil, sycophancy, hallucination)。このベクトルは、学習中の監視やペルソナシフトの是正、特定の不都合なペルソナを生じさせる要因となる学習データの同定などの応用が期待される。
ITIでsteeringを実施するとMMLUのような一般的なタスクの能力が劣化するのに対し、学習中にsteeringを実施しながら学習するとタスク遂行能力の低下なしにシフトが生じるのを抑制することが可能な模様。
