InformationRetrieval

#Analysis#Pocket#NLP#LanguageModel#RetrievalAugmentedGeneration
Issue Date: 2024-11-19 Likelihood as a Performance Gauge for Retrieval-Augmented Generation, Tianyu Liu+, arXiv24 Commentトークンレベルの平均値をとった生成テキストの対数尤度と、RAGの回答性能に関する分析をした模様。![image](https://github.com/user-attachments/assets/ac03c0b6-b16c-4992-8446-2f56bad09ab2)とりあえず、もし「L参考: ... #Pocket#RelevanceJudgment#LanguageModel#Evaluation
Issue Date: 2024-11-14 A Large-Scale Study of Relevance Assessments with Large Language Models: An Initial Look, Shivani Upadhyay+, arXiv24 Comment元ポスト:https://x.com/lintool/status/1856876816197165188?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q[Perplexity(参考;Hallucinationに注意)](https://www.perplexity.ai/search/ ... #Pocket#NLP#LanguageModel#RetrievalAugmentedGeneration
Issue Date: 2024-11-10 HyQE: Ranking Contexts with Hypothetical Query Embeddings, Weichao Zhou+, arXiv24 Comment#1498 も参照のこと。 下記に試しにHyQEとHyDEの比較の記事を作成したのでご参考までに(記事の内容に私は手を加えていないのでHallucinationに注意)。ざっくりいうとHyDEはpseudo documentsを使うが、HyQEはpseudo queryを扱う。 [参![imag ...

#RecommenderSystems#Pocket#MulltiModal
Issue Date: 2024-11-08 MM-Embed: Universal Multimodal Retrieval with Multimodal LLMs, Sheng-Chieh Lin+, arXiv24 Comment![image](https://github.com/user-attachments/assets/d05854af-4525-40ba-8458-bfe333135cff) ... #NLP#RetrievalAugmentedGeneration#Attack
Issue Date: 2024-11-07 Data Extraction Attacks in Retrieval-Augmented Generation via Backdoors, Yuefeng Peng+, arXiv24 Commentfinetuning用データセットに対して、攻撃者がpoisoningしたデータを忍ばせることで、クエリ中のトリガーワード(trigger)に反応して、RAGで検索対象となったドキュメントを抽出的に、あるいはparaphraseしたものを出力させるようなバックドアを仕掛ける攻撃方法を指摘している。2 ... #Survey#NLP#LanguageModel#RetrievalAugmentedGeneration
Issue Date: 2024-10-20 Retrieval Augmented Generation (RAG) and Beyond: A Comprehensive Survey on How to Make your LLMs use External Data More Wisely, Siyun Zhao+, N_A, arXiv24 CommentRAGのクエリを4種類に分類した各クエリごとの技術をまとめたSurvey![image](https://github.com/user-attachments/assets/b551725d-5f82-4914-8b8f-716ddb6a342b) ... #NLP#Dataset#Evaluation#RetrievalAugmentedGeneration
Issue Date: 2024-10-20 Fact, Fetch, and Reason: A Unified Evaluation of Retrieval-Augmented Generation, Satyapriya Krishna+, N_A, arXiv24 CommentRAGのfactuality, retrieval acculacy, reasoningを評価するためのmulti hop puestionとそれに回答するための最大15のwikipedia記事のベンチマーク元ポスト:https://x.com/_philschmid/status/184062 ... #LanguageModel#Evaluation
Issue Date: 2024-09-24 Report on the 1st Workshop on Large Language Model for Evaluation in Information Retrieval (LLM4Eval 2024) at SIGIR 2024, Hossein A. Rahmani+, N_A, arXiv24 CommentLLMを用いたIRシステムの評価方法に関するワークショップのレポート。レポート中にAccepted Paperがリストアップされている。 ... #Pocket#RelevanceJudgment#LanguageModel
Issue Date: 2024-09-24 Dont Use LLMs to Make Relevance Judgments, Ian Soboroff, N_A, arXiv24 Comment興味深い!!後で読む! ... #Pocket#NLP#Chain-of-Thought#RetrievalAugmentedGeneration
Issue Date: 2024-04-14 RAT: Retrieval Augmented Thoughts Elicit Context-Aware Reasoning in Long-Horizon Generation, Zihao Wang+, N_A, arXiv24 Summary大規模言語モデルの推論および生成能力を向上させ、幻覚を軽減する方法として、情報検索を利用して思考の連鎖を修正する「retrieval-augmented thoughts(RAT)」が提案された。この方法は、ゼロショットのCoTが生成された後、取得した情報を使用して各思考ステップを修正する。GPT-3.5、GPT-4、およびCodeLLaMA-7bにRATを適用することで、コード生成、数学的推論、創造的な執筆、具体的なタスク計画などのタスクでパフォーマンスが大幅に向上した。デモページはhttps://craftjarvis.github.io/RATで利用可能。 CommentRAGにおいてCoTさせる際に、各reasoningのstepを見直させることでより質の高いreasoningを生成するRATを提案。Hallucinationが低減し、生成のパフォーマンスも向上するとのこと。コンセプト自体はそりゃそうだよねという話なので、RAGならではの課題があり、それを解決した ... image#Pocket#NLP#LanguageModel#Finetuning (SFT)#RetrievalAugmentedGeneration
Issue Date: 2024-04-07 RAFT: Adapting Language Model to Domain Specific RAG, Tianjun Zhang+, N_A, arXiv24 Summary大規模なテキストデータのLLMsを事前学習し、新しい知識を追加するためのRetrieval Augmented FineTuning(RAFT)を提案。RAFTは、質問に回答するのに役立つ関連文書から正しいシーケンスを引用し、chain-of-thoughtスタイルの応答を通じて推論能力を向上させる。RAFTはPubMed、HotpotQA、Gorillaデータセットでモデルのパフォーマンスを向上させ、事前学習済みLLMsをドメイン固有のRAGに向けて改善する。 CommentQuestion, instruction, coxtext, cot style answerの4つを用いてSFTをする模様画像は下記ツイートより引用https://x.com/cwolferesearch/status/1770912695765660139?s=46&t=Y6UuIHB0 ... image#Pocket#NLP#LanguageModel#Prompting#Reasoning
Issue Date: 2024-04-07 RankPrompt: Step-by-Step Comparisons Make Language Models Better Reasoners, Chi Hu+, N_A, arXiv24 SummaryLLMsは推論タスクで優れた性能を発揮しているが、論理エラーが起こりやすい。RankPromptという新しいプロンプティング方法を導入し、LLMsが自己ランク付けを行い推論パフォーマンスを向上させる。実験では、RankPromptがChatGPTやGPT-4の推論パフォーマンスを13%向上させ、AlpacaEvalデータセットで人間の判断と74%の一致率を示すことが示された。RankPromptは言語モデルから高品質なフィードバックを引き出す効果的な方法であることが示された。 CommentLLMでランキングをするためのプロンプト手法。大量の候補をランキングするのは困難だと思われるが、リランキング手法としては利用できる可能性がある ... image#Pocket#Dataset#MulltiModal
Issue Date: 2023-12-01 UniIR: Training and Benchmarking Universal Multimodal Information Retrievers, Cong Wei+, N_A, arXiv23 Summary従来の情報検索モデルは一様な形式を前提としているため、異なる情報検索の要求に対応できない。そこで、UniIRという統一された指示に基づくマルチモーダルリトリーバーを提案する。UniIRは異なるリトリーバルタスクを処理できるように設計され、10のマルチモーダルIRデータセットでトレーニングされる。実験結果はUniIRの汎化能力を示し、M-BEIRというマルチモーダルリトリーバルベンチマークも構築された。 Comment後で読む(画像は元ツイートより元ツイート: https://x.com/congwei1230/status/1730307767469068476?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... image#NLP#LanguageModel#KnowledgeGraph#FactualConsistency#NaturalLanguageUnderstanding
Issue Date: 2023-07-14 Direct Fact Retrieval from Knowledge Graphs without Entity Linking, ACL23 Summary従来の知識取得メカニズムの制限を克服するために、我々はシンプルな知識取得フレームワークであるDiFaRを提案する。このフレームワークは、入力テキストに基づいて直接KGから事実を取得するものであり、言語モデルとリランカーを使用して事実のランクを改善する。DiFaRは複数の事実取得タスクでベースラインよりも優れた性能を示した。 #LearningToRank#LanguageModel#Prompting
Issue Date: 2023-07-11 Large Language Models are Effective Text Rankers with Pairwise Ranking Prompting, Zhen Qin+, N_A, arXiv23 SummaryLLMsを使用してドキュメントをランキングする際に、Pairwise Ranking Prompting(PRP)という新しい技術を提案する。PRPは、LLMsへの負荷を軽減し、最先端のランキングパフォーマンスを達成することができる。具体的には、20Bパラメータを持つFlan-UL2モデルに基づくPRPは、商用のGPT-4に基づく従来の手法を上回る結果を示した。さらに、PRPのバリアントを提案し、効率を改善することができることを示した。PRPは生成とスコアリングのLLM APIの両方をサポートし、入力の順序に対して無感度であることも示された。 Commentopen source LLMをスタンダードなベンチマークでSoTAを達成できるようなprompting技術を提案 ... #Pocket#NLP#LanguageModel#RetrievalAugmentedGeneration
Issue Date: 2024-11-11 Precise Zero-Shot Dense Retrieval without Relevance Labels, Luyu Gao+, arXiv22 #RecommenderSystems#NeuralNetwork#Tutorial
Issue Date: 2018-02-16 Deep Learning for Personalized Search and Recommender Systems, KDD17 #Tutorial#LearningToRank#Online/Interactive
Issue Date: 2018-01-01 Online Learning to Rank for Information Retrieval, Grotov+, SIGIR16 #NeuralNetwork#SearchEngine#MultitaskLearning#QueryClassification#WebSearch
Issue Date: 2018-02-05 Representation Learning Using Multi-Task Deep Neural Networks for Semantic Classification and Information Retrieval, Liu+, NAACL-HLT15 Commentクエリ分類と検索をNeural Netを用いてmulti-task learningする研究分類(multi-class classification)とランキング(pairwise learning-to-rank)という異なる操作が必要なタスクを、multi task learningの枠組みで ... #LearningToRank#Online/Interactive#Pocket
Issue Date: 2018-01-01 Contextual Dueling Bandits, Dudik+, JMLR15 #Tutorial#LearningToRank
Issue Date: 2018-01-01 Machine Learning for Information Retrieval, Hofmann, ESSIR15 #RecommenderSystems#NeuralNetwork#Contents-based
Issue Date: 2021-06-01 Learning Deep Structured Semantic Models for Web Search using Clickthrough Data, Huang+, CIKM13 Comment日本語解説: https://shunk031.me/paper-survey/summary/others/Learning-Deep-Structured-Semantic-Models-for-Web-Search-using-Clickthrough-Data ... #LearningToRank#Online/Interactive#Interleaved
Issue Date: 2018-01-01 Reusing Historical Interaction Data for Faster Online Learning to Rank for IR, Hofmann+, WSDM13 Comment#197 DBGDを拡張した手法を提案している。 アルゴリズムが細かく書いてあるので、追っていくとDBGD等について理解が深まると思われる。 Interleavemethodについても。 ... #Tutorial#OnlineEvaluation
Issue Date: 2018-01-01 Practical Online Retrieval Evaluation, SIGIR11, Tutorial #Comments
Issue Date: 2018-01-15 Ranking Comments on Social Web, Hsu+, CSE09 CommentLearning to Rankによってコメントをランキングする手法を提案。 これにより、低品質なコメントははじき、良質なコメントをすくいとることができる。 素性としては、主にユーザに基づく指標(ユーザが作成した記事の数、プロフィールが何度閲覧されたかなど)と、コメントのContentに基づく指 ... #LearningToRank#Online/Interactive
Issue Date: 2018-01-01 Interactively Optimizing Information Retrieval Systems as a Dueling Bandits Problem, Yue+, ICML09 Commentonline learning to rankに関する論文でよくreferされる論文 提案手法は、Dueling Bandit Gradient Descent(DBGD)と呼ばれる. onlineでlearning to rankを行える手法で、現在の重みwとwをランダムな方向に動かし ... #LearningToRank#Interleaved
Issue Date: 2018-01-01 How Does Clickthrough Data Reflect Retrieval Quality?, Radlijnski+, CIKM08 #LearningToRank#Online/Interactive
Issue Date: 2018-01-01 Fast Learning of Document Ranking Functions with the Committee Perceptrion, Elsas+, WSDM08 #LearningToRank#ListWise#Pocket
Issue Date: 2018-01-01 Listwise Approach to Learning to Rank - Theory and Algorithm (ListMLE), Xia+, ICML2008 #LearningToRank#ListWise
Issue Date: 2018-01-01 Learning to Rank: From Pairwise Approach to Listwise Approach (ListNet), Cao+, ICML2007 Comment解説スライド:http://www.nactem.ac.uk/tsujii/T-FaNT2/T-FaNT.files/Slides/liu.pdf 解説ブログ:https://qiita.com/koreyou/items/a69750696fd0b9d88608従来行われてきたLearning t ... #MachineLearning#StructuredLearning
Issue Date: 2017-12-31 A support vector method for Optimizing Average Precision, Yue+, SIGIR07 CommentSVM-MAPの論文 構造化SVMを用いて、MAPを直接最適化する。 ... #Analysis#Comments
Issue Date: 2018-01-15 Leave a Reply: An Analysis of Weblog Comments, Mishne+, WWW06 Comment従来のWeblog研究では、コメントの情報が無視されていたが、コメントも重要な情報を含んでいると考えられる。 この研究では、以下のことが言及されている。 * (収集したデータの)ブログにコメントが付与されている割合やコメントの長さ、ポストに対するコメントの平均などの統計量 * ブログ検索に相当流し ... #LearningToRank#PairWise
Issue Date: 2018-01-01 Learning to Rank using Gradient Descent (RankNet), Burges+, ICML2005 Commentpair-wiseのlearning2rankで代表的なRankNet論文 解説ブログ:https://qiita.com/sz_dr/items/0e50120318527a928407 lossは2個のインスタンスのpair、A, Bが与えられたとき、AがBよりも高くランクされる場合は確 ... #LearningToRank#PointWise
Issue Date: 2018-01-01 PRanking with Ranking, Crammer+, NIPS01 CommentPoint-WiseなLearning2Rankの有名手法 ... #DocumentSummarization#NLP#SearchEngine
Issue Date: 2018-01-17 The Use of MMR, Diversity-Based Reranking for Reordering Documents and Producing Summaries, Carbonell+, SIGIR98 CommentMaximal Marginal Relevance (MMR) 論文。 検索エンジンや文書要約において、文書/文のランキングを生成する際に、既に選んだ文書と類似度が低く、かつqueryとrelevantな文書をgreedyに選択していく手法を提案。 ILPによる定式化が提案される以前のMult ... #Article#Tutorial#NLP#RetrievalAugmentedGeneration
Issue Date: 2024-11-07 RAGの改善方法に関する情報のまとめ(再掲), GENZITSU, 2023.10 #Article#Pocket#NLP#LanguageModel#RetrievalAugmentedGeneration#Article
Issue Date: 2024-09-29 RAGの実装戦略まとめ, Jin Watanabe, 2024.03 #Article#Embeddings#NLP#RetrievalAugmentedGeneration#Article
Issue Date: 2024-09-08 Late Chunking: Balancing Precision and Cost in Long Context Retrieval, Pierse+, 2024.09 Commentchunkingしてからembeddingを取得するより、全体のドキュメントに対してcontextualなtoken embeddingを取得し、その後chunkingをしてpoolingしてsingle vectorにする方が、文書の文脈情報がembedding内で保持されやすいので、precis ... #Article#Pocket#NLP#LanguageModel#RetrievalAugmentedGeneration#Article
Issue Date: 2024-08-09 RAG入門: 精度改善のための手法28選, 2024.08 #Article#Tutorial#Survey#NLP#LanguageModel#RetrievalAugmentedGeneration#Article
Issue Date: 2024-03-05 RAG-Research-Insights CommentRAGに関する研究が直近のものまでよくまとめられている ... #Article#Tutorial#Survey#LanguageModel#Article
Issue Date: 2024-02-22 awesome-generative-information-retrieval #Article#NLP#LanguageModel#RetrievalAugmentedGeneration
Issue Date: 2024-02-11 RAGの性能を改善するための8つの戦略 Commentめちゃめちゃ詳細にRAG性能向上の手法がreference付きでまとまっている。すごい。 ... #Article#NLP#RetrievalAugmentedGeneration#Article
Issue Date: 2023-12-21 Structured Hierarchical Retrieval, llama-index Comment元ツイート: https://x.com/llama_index/status/1737515390664872040?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Article#RetrievalAugmentedGeneration#Article
Issue Date: 2023-12-21 Build a search engine, not a vector DB #Article#NLP#LanguageModel#RetrievalAugmentedGeneration#Article
Issue Date: 2023-12-04 kaggle LLM コンペ 上位解法を自分なりにまとめてみた話 Comment実践的な内容(チャンク生成時の工夫、クエリ生成時の工夫等)が網羅的にまとまっており非常に有用個人的に、コンペ主催者側から提供されたデータが少なく、上位のほとんどのチームがChatGPT(3.5, 4)を用いて、QAデータを生成していた、というのが興味深かった。プロンプトはたとえば下記: [(5th- ... #Article#Tutorial#NLP#LanguageModel#RetrievalAugmentedGeneration
Issue Date: 2023-11-06 Retrieval-based LM (RAG System)ざっくり理解する, 2023 Comment(以下スクショはスライドより引用) 次のスクショはRAGにかかわる周辺技術がよくまとまっていると思う。 以下ざっくり私の中の認識として 計画 クエリ拡張 クエリの質が悪い場合検索性能が劣化するため、クエリをより適切に検索ができるように修正(昔 ... image#Article#RecommenderSystems#Survey#Personalization
Issue Date: 2023-04-28 Measuring the impact of online personalisation: Past, present and future CommentPersonalizationに関するML, RecSys, HCI, Personalized IRといったさまざまな分野の評価方法に関するSurvey ML + RecSys系では、オフライン評価が主流であり、よりaccuracyの高い推薦が高いUXを実現するという前提に基づいて評価されて ... #Article#Personalization
Issue Date: 2023-04-28 Preface to Special Issue on User Modeling for Web Information Retrieval, Brusilovsky+, User Modeling and User-Adapted Interaction , 2004 CommentPersonalized Information Retrievalの先駆け的研究 #566 と同時期 ... #Article#Survey#Personalization
Issue Date: 2023-04-28 User Profiles for Personalized Information Access, Gauch+, The adaptive Web: methods and strategies of Web personalization, 2007 CommentIR分野におけるuser profileの構築方法についてまとめられたsurvey 加重キーワード セマンティックネットワーク 加重コンセプト について記述されている。また、プロファイルの構築方法についても詳述されている。 ... #Article#CollaborativeFiltering#RelevanceFeedback#SearchEngine#WebSearch#Personalization
Issue Date: 2023-04-28 Adaptive Web Search Based on User Profile Constructed without Any Effort from Users, Sugiyama+, NAIST, WWW’04 Comment検索結果のpersonalizationを初めてuser profileを用いて実現した研究 user profileはlong/short term preferenceによって構成される。 long term: さまざまなソースから取得される short term: 当日のセッショ ... #Article#Embeddings#SearchEngine#Library#Repository
Issue Date: 2023-04-27 Awesome Vector Search Engine Commentベクトルの類似度を測るサービスやライブラリ等がまとまったリポジトリ ... #Article#Library
Issue Date: 2023-04-26 Contrirver #Article#Tools#NLP#Library#LLMAgent
Issue Date: 2023-04-22 Llamaindex CommentLlamaIndexのインデックスを更新し、更新前後で知識がアップデートされているか確認してみた https://dev.classmethod.jp/articles/llama-index-insert-index/ ... #Article#Tools#NLP#LanguageModel#Library#LLMAgent
Issue Date: 2023-04-21 LangChain CommentLangChain の Googleカスタム検索 連携を試す https://note.com/npaka/n/nd9a4a26a8932LangChainのGetting StartedをGoogle Colaboratoryでやってみる ④Agents https://zenn.de ... #Article#Survey#RelevanceFeedback#ImplicitFeedback
Issue Date: 2018-01-01 Evaluating implicit measures to improve web search, Fox+, ACM Transactions on Imformation Systems, 2005 #Article#Survey#RelevanceFeedback#ExplicitFeedback
Issue Date: 2018-01-01 A survey on the use of relevance feedback for information access systems., Ruthven+, The Knowledge Engineering Review, 2003 #Article#Tools#LearningToRank#Online/Interactive
Issue Date: 2018-01-01 Lerot: Online Learning to rank Framework #Article#Survey#LearningToRank#Online/Interactive
Issue Date: 2018-01-01 Fast and Reliable Online Learning to Rank for Information Retrieeval, Katja Hofmann, Doctoral Thesis, 2013 #Article#LearningToRank#ListWise
Issue Date: 2018-01-01 A General Approximation Framework for Direct Optimization of Information Retrieval Measures (ApproxAP, ApproxNDCG), Qin+, Information Retrieval, 2010 Comment実装してみたが、バグありそう感・・・ https://github.com/AkihikoWatanabe/ApproxAP ... #Article#LearningToRank#PairWise
Issue Date: 2018-01-01 Large Scale Learning to Rank, Sculley+, NIPS 2009 Commentsofia-mlの実装内容について記述されている論文 よくonline学習の文脈で触れられるが、気をつけないと罠にはまる。 というのは、sofia-ml内のMethodsによって、最適化している目的関数が異なるからだ。 実装をみると、全てのmethodsがonlineでできちゃいそうに見え ... #Article#Tutorial#LearningToRank
Issue Date: 2018-01-01 From RankNet to LambdaRank to LambdaMART: An Overview, Burges, Microsoft Research Technical Report, 2010 #Article#Tutorial#LearningToRank
Issue Date: 2018-01-01 Confidence Weightedでランク学習を実装してみた #Article#Tutorial#LearningToRank
Issue Date: 2018-01-01 ランキング学習ことはじめ, DSIRNLP#1, 2011 #Article#Survey#LearningToRank
Issue Date: 2018-01-01 Learning to Rank for Information Retriefval, Liu+, 2009 #Article#MachineLearning#StructuredLearning#Tools
Issue Date: 2017-12-31 SVM-MAP Comment構造化SVMを用いて、MAPを直接最適化する手法 ... #Article#RelevanceJudgment
Issue Date: 2017-12-28 Relevance judgment: What do information users consider beyond topicality? Xu, Chen, 2007 Comment・relevanceとsignificantに関連するcriteriaは,topicalityとnovelty ・reliabilityおよびunderstandabilityはsmaller degreeでsignificant, scopeはsignificantでない ... #Article#RelevanceJudgment
Issue Date: 2017-12-28 A cognitive model of document use during a research project, Wang and Soergel, 1998 Commenttopicality, orientation, quality, novelty(の順番で)がrelevantなdocumentを選択したときのcriteriaとして採用されていたことを報告 ... #Article#Pocket
Issue Date: 2017-12-28 Personalizing Search via Automated Analysis of Interests and Activities, SIGIR, Teevan+, 2005, 2005.08 Comment・userに関するデータがrichなほうが、Personalizationは改善する。 ・queries, visited web pages, emails, calendar items, stored desktop      documents、全てのsetを用いた場合が最も良かった ... #Article#Survey
Issue Date: 2017-12-28 Personalised Information retrieval: survey and classification, Rami+, 2013, 2012.05 Comment![image](https://user-images.githubusercontent.com/12249301/34402162-5433e4e4-ebe3-11e7-8bf3-fc322ace70d8.png) ![image](https://user-images.githubuse完 ... #Article
Issue Date: 2017-12-28 Modeling Anchor Text and Classifying Queries to Enhance Web Document Retrieval, WWW’08, Fujii, 2008, 2008.04 Comment![image](https://user-images.githubusercontent.com/12249301/34401828-1259be4c-ebe1-11e7-99c4-33508b405bf1.png) ![image](https://user-images.githubuse ...