Emotion
[Paper Note] AttuneBench: A Conversation-Based Benchmark for LLM Emotional Intelligence, Kate M. Lubrano+, arXiv'26, 2026.05
Paper/Blog Link My Issue
#Multi #NLP #Dataset #LanguageModel #Evaluation #Conversation #read-later #Initial Impression Notes #Author Thread-Post Issue Date: 2026-05-31 GPT Summary- 感情知性(EI)の評価が重要になる中、AttuneBenchを紹介。実際の複数ターンの人間-モデル対話200件に基づき、感情状態とモデルの挙動をターンごとに注釈。11モデルの評価結果は感情認識や応答品質に関する能力が分離可能であることを示し、嗜好の整合と応答品質の判断がモデル識別に強く寄与することを明らかに。AttuneBenchは、感情的に重要な会話の評価枠組みを提供し、モデルの強みや弱点を診断する。 Comment
元ポスト:
leaderboard: https://public.attunebench.com/
対話をしている本人によるプロンプト、アノテーション、マルチターンの会話を前提にモデルのEQを測定するためのベンチマークのようである(従来は合成プロンプト、シングルターン、third-partyに基づいたアノテーション(つまり対話している本人ではない、ということだと思われる)によるベンチマークだったとのこと)。
[Paper Note] LongEmotion: Measuring Emotional Intelligence of Large Language Models in Long-Context Interaction, Weichu Liu+, arXiv'25, 2025.09
Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #Evaluation #LongSequence Issue Date: 2025-09-21 GPT Summary- 長文の感情知能(EI)タスク専用のベンチマーク「LongEmotion」を提案。感情分類や感情会話など多様なタスクをカバーし、平均入力長は8,777トークン。Retrieval-Augmented Generation(RAG)とCollaborative Emotional Modeling(CoEM)を組み込み、従来の手法と比較してEIパフォーマンスを向上。実験結果は、RAGとCoEMが長文タスクにおいて一貫して効果を示し、LLMsの実用性を高めることを示した。 Comment
pj page: https://longemotion.github.io
元ポスト:
[Paper Note] Emotionally Numb or Empathetic? Evaluating How LLMs Feel Using EmotionBench, Jen-tse Huang+, NeurIPS'24, 2023.08
Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #Evaluation #NeurIPS Issue Date: 2026-01-25 GPT Summary- LLMの感情評価能力を新たに検討。400以上の状況から8つの感情を引き出すデータセットを作成し、1,200人による人間評価を実施。7つのLLMを評価した結果、一般的には適切な応答を示すが、人間の感情行動との整合性に欠けることが明らかに。データセット、評価結果、EmotionBenchのコードは公開中。 Comment
pj page: https://cuhk-arise.github.io/EmotionBench/
元ポスト:
[Paper Note] MoodSwipe: A Soft Keyboard that Suggests Messages Based on User-Specified Emotions, Huang+, EMNLP'17
Paper/Blog Link My Issue
#RecommenderSystems #SentimentAnalysis #NLP #Conversation #EMNLP Issue Date: 2018-01-01 GPT Summary- MoodSwipeは、ユーザーの指定した感情に基づいてテキストメッセージを提案するソフトキーボードで、実際の対話データを活用しています。感情分類とテキスト提案の技術を楽しむための便利なインターフェースを提供し、同時にラベル付きデータを自動収集します。ユーザーは通常通り入力しつつ、感情を感知して提案を受け取ることができ、感情が提案の媒介として機能します。実験により、感情分類モデルの優位性と、感情の手がかりがテキスト提案において重要であることを示しました。
Emotion Concepts and their Function in a Large Language Model, Anthropic, 2026.04
Paper/Blog Link My Issue
#Article #Analysis #NLP #LanguageModel #read-later #Selected Papers/Blogs #Initial Impression Notes Issue Date: 2026-04-04 Comment
元ポスト:
これは非常に面白そうだ
Andrej Karpathy — AGI is still a decade away, DWARKESH PATEL, 2025.10
Paper/Blog Link My Issue
#Article #Pretraining #MachineLearning #NLP #LanguageModel #ReinforcementLearning #AIAgents #In-ContextLearning #Blog #RewardHacking #PostTraining #Diversity #Selected Papers/Blogs #PRM #Generalization #Cultural #ContinualLearning Issue Date: 2025-10-20 Comment
元ポスト:
関連:
- In-context Steerbility: [Paper Note] Spectrum Tuning: Post-Training for Distributional Coverage and
In-Context Steerability, Taylor Sorensen+, arXiv'25, 2025.10
(整理すると楽しそうなので後で関連しそうな研究を他にもまとめる)
とても勉強になる!AIに代替されない20%, 1%になるには果たして
所見:
