RelevanceJudgment
Issue Date: 2024-11-14 A Large-Scale Study of Relevance Assessments with Large Language Models: An Initial Look, Shivani Upadhyay+, arXiv'24 GPT Summary- 本研究では、TREC 2024 RAG Trackにおける大規模言語モデル(LLM)を用いた関連性評価の結果を報告。UMBRELAツールを活用した自動生成評価と従来の手動評価の相関を分析し、77の実行セットにおいて高い相関を示した。LLMの支援は手動評価との相関を高めず、人間評価者の方が厳格であることが示唆された。この研究は、TRECスタイルの評価におけるLLMの使用を検証し、今後の研究の基盤を提供する。 Comment
元ポスト:
[Perplexity(参考;Hallucinationに注意)](
https://www.perplexity.ai/search/yi-xia-nolun-wen-wodu-ntenei-r-h3qlECirT3G9O2BGk765_g)
Perplexityの生成結果では、27個のシステムと記述されているが、これは実際はトピックで、各トピックごとに300件程度の0--3のRelevance Scoreが、人手評価、UMBRELA共に付与されている模様(Table1)。
評価結果
- Fully Manual Assessment: 既存のNIST methodologyと同様に人手でRelevance Scoreを付与する方法
- Manual Aspessment with Filtering: LLMのnon-Relevantと判断したpassageを人手評価から除外する方法
- Manual Post-Editing of Automatic Assessment: LLMがnon-Relevantと判断したpassageを人手評価から除外するだけでなく、LLMが付与したスコアを評価者にも見せ、評価者が当該ラベルを修正するようなスコアリングプロセス
- Fully Automatic Assessment:UMBRELAによるRelevance Scoreをそのまま利用する方法
LLMはGPT4-oを用いている。
19チームの77個のRunがどのように実行されているか、それがTable1の統計量とどう関係しているかがまだちょっとよくわかっていない。
UMBRELAでRelevance Scoreを生成する際に利用されたプロンプト。
#InformationRetrieval #Pocket #LanguageModel
Issue Date: 2024-09-24 Don't Use LLMs to Make Relevance Judgments, Ian Soboroff, N_A, arXiv'24 GPT Summary- TRECスタイルの関連性判断は高コストで複雑であり、通常は訓練を受けた契約者チームが必要です。最近の大規模言語モデルの登場により、情報検索研究者はこれらのモデルの利用可能性を考え始めました。ACM SIGIR 2024カンファレンスでの「LLM4Eval」ワークショップでは、TRECの深層学習トラックの判断を再現するデータチャレンジが行われました。本論文はその基調講演をまとめたもので、TRECスタイルの評価においてLLMを使用しないことを提言しています。 Comment
興味深い!!後で読む!
#Article #DocumentSummarization #InformationRetrieval #NLP #Snippets #QueryBiased #KeyPoint Notes
Issue Date: 2017-12-28 [Paper Note] A task-oriented study on the influencing effects of query-biased summarization in web searching, White et al., Information Processing and Management, 2003.09 Comment
・search engineにおいてquery-biasedな要約の有用性を示したもの
・task-orientedな評価によって,提案手法がGoogleやAltaVistaのスニペットよりも良いことを示す.
・提案手法は文選択によるquery-biased summarization.スコアリングには,ページのタイトルに含まれる単語がどれだけ含まれているか,文のページ内での出現位置,クエリとの関連度,文の書式(太字)などの情報を使う.
・スニペットが作れないページに対しては,エラーメッセージを返したり,ページ内の最初のnon-textualな要素を返したりする.
・informative relevance: 知識を求める検索など(個人のブログ,経済ニュースとか)
・affective relevance: 楽しみや感情に刺激を受けるための情報を求める検索の場合(2chまとめとか,哲学ニュースまとめとか?)
・topicality, novelty, reliabilityがsignificantにinformative relevanceに寄与, scopeとunderstandabilityは寄与せず
・topicality, understandabilityがsignificantにaffective relevanceに寄与,しかし,noveltyはそうではなかった.
#Article #InformationRetrieval #One-Line Notes Issue Date: 2017-12-28 [Paper Note] Relevance judgment: What do information users consider beyond topicality? Xu Chen, Journal of the American Society for Information Science and Technology, 2006.05 Comment
・relevanceとsignificantに関連するcriteriaは,topicalityとnovelty
・reliabilityおよびunderstandabilityはsmaller degreeでsignificant, scopeはsignificantでない
#Article #InformationRetrieval #One-Line Notes Issue Date: 2017-12-28 [Paper Note] A cognitive model of document use during a research project, Wang and Soergel, Journal of the American Society for Information Science, 1998.02 Comment
topicality, orientation, quality, novelty(の順番で)がrelevantなdocumentを選択したときのcriteriaとして採用されていたことを報告