RelevanceJudgment


Paper/Blog Link My Issue
#InformationRetrieval #Pocket #LanguageModel #Evaluation Issue Date: 2024-11-14 GPT Summary- 本研究では、TREC 2024 RAG Trackにおける大規模言語モデル(LLM)を用いた関連性評価の結果を報告。UMBRELAツールを活用した自動生成評価と従来の手動評価の相関を分析し、77の実行セットにおいて高い相関を示した。LLMの支援は手動評価との相関を高めず、人間評価者の方が厳格であることが示唆された。この研究は、TRECスタイルの評価におけるLLMの使用を検証し、今後の研究の基盤を提供する。 Comment

元ポスト:

Loading…

[Perplexity(参考;Hallucinationに注意)]( https://www.perplexity.ai/search/yi-xia-nolun-wen-wodu-ntenei-r-h3qlECirT3G9O2BGk765_g)

Perplexityの生成結果では、27個のシステムと記述されているが、これは実際はトピックで、各トピックごとに300件程度の0--3のRelevance Scoreが、人手評価、UMBRELA共に付与されている模様(Table1)。

image

評価結果

- Fully Manual Assessment: 既存のNIST methodologyと同様に人手でRelevance Scoreを付与する方法
- Manual Aspessment with Filtering: LLMのnon-Relevantと判断したpassageを人手評価から除外する方法
- Manual Post-Editing of Automatic Assessment: LLMがnon-Relevantと判断したpassageを人手評価から除外するだけでなく、LLMが付与したスコアを評価者にも見せ、評価者が当該ラベルを修正するようなスコアリングプロセス
- Fully Automatic Assessment:UMBRELAによるRelevance Scoreをそのまま利用する方法

LLMはGPT4-oを用いている。

image

19チームの77個のRunがどのように実行されているか、それがTable1の統計量とどう関係しているかがまだちょっとよくわかっていない。

UMBRELAでRelevance Scoreを生成する際に利用されたプロンプト。
image




Paper/Blog Link My Issue
#InformationRetrieval #Pocket #LanguageModel Issue Date: 2024-09-24 GPT Summary- TRECスタイルの関連性判断は高コストで複雑であり、通常は訓練を受けた契約者チームが必要です。最近の大規模言語モデルの登場により、情報検索研究者はこれらのモデルの利用可能性を考え始めました。ACM SIGIR 2024カンファレンスでの「LLM4Eval」ワークショップでは、TRECの深層学習トラックの判断を再現するデータチャレンジが行われました。本論文はその基調講演をまとめたもので、TRECスタイルの評価においてLLMを使用しないことを提言しています。 Comment

興味深い!!後で読む!




Paper/Blog Link My Issue
#Article #DocumentSummarization #InformationRetrieval #NLP #Snippets #QueryBiased #KeyPoint Notes Issue Date: 2017-12-28 Comment

・search engineにおいてquery-biasedな要約の有用性を示したもの

・task-orientedな評価によって,提案手法がGoogleやAltaVistaのスニペットよりも良いことを示す.

・提案手法は文選択によるquery-biased summarization.スコアリングには,ページのタイトルに含まれる単語がどれだけ含まれているか,文のページ内での出現位置,クエリとの関連度,文の書式(太字)などの情報を使う.

・スニペットが作れないページに対しては,エラーメッセージを返したり,ページ内の最初のnon-textualな要素を返したりする.




Paper/Blog Link My Issue
#Article #RecommenderSystems #One-Line Notes Issue Date: 2017-12-28 Comment

・informative relevance: 知識を求める検索など(個人のブログ,経済ニュースとか)

・affective relevance: 楽しみや感情に刺激を受けるための情報を求める検索の場合(2chまとめとか,哲学ニュースまとめとか?)



・topicality, novelty, reliabilityがsignificantにinformative relevanceに寄与, scopeとunderstandabilityは寄与せず

・topicality, understandabilityがsignificantにaffective relevanceに寄与,しかし,noveltyはそうではなかった.




Paper/Blog Link My Issue
#Article #InformationRetrieval #One-Line Notes Issue Date: 2017-12-28 Comment

・relevanceとsignificantに関連するcriteriaは,topicalityとnovelty

・reliabilityおよびunderstandabilityはsmaller degreeでsignificant, scopeはsignificantでない




Paper/Blog Link My Issue
#Article #InformationRetrieval #One-Line Notes Issue Date: 2017-12-28 Comment

topicality, orientation, quality, novelty(の順番で)がrelevantなdocumentを選択したときのcriteriaとして採用されていたことを報告