RelevanceJudgment
#InformationRetrieval
#Pocket
#LanguageModel
#Evaluation
Issue Date: 2024-11-14 A Large-Scale Study of Relevance Assessments with Large Language Models: An Initial Look, Shivani Upadhyay+, arXiv'24 Summary本研究では、TREC 2024 RAG Trackにおける大規模言語モデル(LLM)を用いた関連性評価の結果を報告。UMBRELAツールを活用した自動生成評価と従来の手動評価の相関を分析し、77の実行セットにおいて高い相関を示した。LLMの支援は手動評価との相関を高めず、人間評価者の方が厳格であることが示唆された。この研究は、TRECスタイルの評価におけるLLMの使用を検証し、今後の研究の基盤を提供する。 Comment元ポスト:https://x.com/lintool/status/1856876816197165188?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q[Perplexity(参考;Hallucinationに注意)](https://www.perplexity.ai/search/yi-xia-nolun-wen-wodu-ntenei-r-h3qlECirT3G9O2BGk765_g)
Perplexityの生成結果では、27個のシステムと記述されているが、これは実際はトピックで、各トピックごとに300件程度の0--3のRelevance Scoreが、人手評価、UMBRELA共に付与されている模様(Table1)。
評価結果
・Fully Manual Assessment: 既存のNIST methodologyと同様に人手でRelevance Scoreを付与する方法
・Manual Aspessment with Filtering: LLMのnon-Relevantと判断したpassageを人手評価から除外する方法
・Manual Post-Editing of Automatic Assessment: LLMがnon-Relevantと判断したpassageを人手評価から除外するだけでなく、LLMが付与したスコアを評価者にも見せ、評価者が当該ラベルを修正するようなスコアリングプロセス
・Fully Automatic Assessment:UMBRELAによるRelevance Scoreをそのまま利用する方法
LLMはGPT4-oを用いている。
19チームの77個のRunがどのように実行されているか、それがTable1の統計量とどう関係しているかがまだちょっとよくわかっていない。UMBRELAでRelevance Scoreを生成する際に利用されたプロンプト。
#InformationRetrieval
#Pocket
#LanguageModel
Issue Date: 2024-09-24 Don't Use LLMs to Make Relevance Judgments, Ian Soboroff, N_A, arXiv'24 SummaryTRECスタイルの関連性判断は高コストで複雑であり、通常は訓練を受けた契約者チームが必要です。最近の大規模言語モデルの登場により、情報検索研究者はこれらのモデルの利用可能性を考え始めました。ACM SIGIR 2024カンファレンスでの「LLM4Eval」ワークショップでは、TRECの深層学習トラックの判断を再現するデータチャレンジが行われました。本論文はその基調講演をまとめたもので、TRECスタイルの評価においてLLMを使用しないことを提言しています。 Comment興味深い!!後で読む! #Article #RecommenderSystems
Issue Date: 2017-12-28 Relevance Judgment in epistemic and hedonic information searches, Xu, Chen, Journal of the American Society for Information Science and Technology, 2007 Comment・informative relevance: 知識を求める検索など(個人のブログ,経済ニュースとか)
・affective relevance: 楽しみや感情に刺激を受けるための情報を求める検索の場合(2chまとめとか,哲学ニュースまとめとか?)
・topicality, novelty, reliabilityがsignificantにinformative relevanceに寄与, scopeとunderstandabilityは寄与せず
・topicality, understandabilityがsignificantにaffective relevanceに寄与,しかし,noveltyはそうではなかった.
Issue Date: 2024-11-14 A Large-Scale Study of Relevance Assessments with Large Language Models: An Initial Look, Shivani Upadhyay+, arXiv'24 Summary本研究では、TREC 2024 RAG Trackにおける大規模言語モデル(LLM)を用いた関連性評価の結果を報告。UMBRELAツールを活用した自動生成評価と従来の手動評価の相関を分析し、77の実行セットにおいて高い相関を示した。LLMの支援は手動評価との相関を高めず、人間評価者の方が厳格であることが示唆された。この研究は、TRECスタイルの評価におけるLLMの使用を検証し、今後の研究の基盤を提供する。 Comment元ポスト:https://x.com/lintool/status/1856876816197165188?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q[Perplexity(参考;Hallucinationに注意)](https://www.perplexity.ai/search/yi-xia-nolun-wen-wodu-ntenei-r-h3qlECirT3G9O2BGk765_g)
Perplexityの生成結果では、27個のシステムと記述されているが、これは実際はトピックで、各トピックごとに300件程度の0--3のRelevance Scoreが、人手評価、UMBRELA共に付与されている模様(Table1)。
評価結果
・Fully Manual Assessment: 既存のNIST methodologyと同様に人手でRelevance Scoreを付与する方法
・Manual Aspessment with Filtering: LLMのnon-Relevantと判断したpassageを人手評価から除外する方法
・Manual Post-Editing of Automatic Assessment: LLMがnon-Relevantと判断したpassageを人手評価から除外するだけでなく、LLMが付与したスコアを評価者にも見せ、評価者が当該ラベルを修正するようなスコアリングプロセス
・Fully Automatic Assessment:UMBRELAによるRelevance Scoreをそのまま利用する方法
LLMはGPT4-oを用いている。
19チームの77個のRunがどのように実行されているか、それがTable1の統計量とどう関係しているかがまだちょっとよくわかっていない。UMBRELAでRelevance Scoreを生成する際に利用されたプロンプト。
Issue Date: 2024-09-24 Don't Use LLMs to Make Relevance Judgments, Ian Soboroff, N_A, arXiv'24 SummaryTRECスタイルの関連性判断は高コストで複雑であり、通常は訓練を受けた契約者チームが必要です。最近の大規模言語モデルの登場により、情報検索研究者はこれらのモデルの利用可能性を考え始めました。ACM SIGIR 2024カンファレンスでの「LLM4Eval」ワークショップでは、TRECの深層学習トラックの判断を再現するデータチャレンジが行われました。本論文はその基調講演をまとめたもので、TRECスタイルの評価においてLLMを使用しないことを提言しています。 Comment興味深い!!後で読む! #Article #RecommenderSystems
Issue Date: 2017-12-28 Relevance Judgment in epistemic and hedonic information searches, Xu, Chen, Journal of the American Society for Information Science and Technology, 2007 Comment・informative relevance: 知識を求める検索など(個人のブログ,経済ニュースとか)
・affective relevance: 楽しみや感情に刺激を受けるための情報を求める検索の場合(2chまとめとか,哲学ニュースまとめとか?)
・topicality, novelty, reliabilityがsignificantにinformative relevanceに寄与, scopeとunderstandabilityは寄与せず
・topicality, understandabilityがsignificantにaffective relevanceに寄与,しかし,noveltyはそうではなかった.
#Article
#InformationRetrieval
Issue Date: 2017-12-28
Relevance judgment: What do information users consider beyond topicality? Xu, Chen, 2007
Comment・relevanceとsignificantに関連するcriteriaは,topicalityとnovelty
・reliabilityおよびunderstandabilityはsmaller degreeでsignificant, scopeはsignificantでない #Article #InformationRetrieval Issue Date: 2017-12-28 A cognitive model of document use during a research project, Wang and Soergel, 1998 Commenttopicality, orientation, quality, novelty(の順番で)がrelevantなdocumentを選択したときのcriteriaとして採用されていたことを報告
・reliabilityおよびunderstandabilityはsmaller degreeでsignificant, scopeはsignificantでない #Article #InformationRetrieval Issue Date: 2017-12-28 A cognitive model of document use during a research project, Wang and Soergel, 1998 Commenttopicality, orientation, quality, novelty(の順番で)がrelevantなdocumentを選択したときのcriteriaとして採用されていたことを報告