TheoryOfMind

#NLP#Dataset#LanguageModel#Evaluation
Issue Date: 2023-07-11 Understanding Social Reasoning in Language Models with Language Models, Kanishk Gandhi+, N_A, arXiv23 Summary大規模言語モデル(LLMs)のTheory-of-Mind(ToM)推論能力を評価するための新しいフレームワークを提案し、新しい社会的推論のベンチマーク(BigToM)を作成しました。BigToMを使用して、さまざまなLLMsの社会的推論能力を評価し、GPT4が人間の推論パターンと類似したToMの能力を持っていることを示しましたが、他のLLMsは苦戦していることを示唆しています。 CommentLLMの社会的推論能力を評価するためのベンチマークを提案。ToMタスクとは、人間の信念、ゴール、メンタルstate、何を知っているか等をトラッキングすることが求められるタスクのこと。 ... image#NLP#LanguageModel#QuestionAnswering#Prompting
Issue Date: 2023-04-28 Boosting Theory-of-Mind Performance in Large Language Models via Prompting, Moghaddam+, Johns Hopkins University, arXiv23 CommentLLMはTheory-of-mind reasoningタスクが苦手なことが知られており、特にzero shotでは非常にパフォーマンスが低かった。ToMタスクとは、エージェントの信念、ゴール、メンタルstate、エージェントが何を知っているか等をトラッキングすることが求められるタスクのこと。このよ ...