Clustering-based
[Paper Note] Don't Retrieve, Navigate: Distilling Enterprise Knowledge into Navigable Agent Skills for QA and RAG, Yiqun Sun+, arXiv'26, 2026.04
Paper/Blog Link My Issue
#InformationRetrieval #NLP #LanguageModel #AIAgents #RAG(RetrievalAugmentedGeneration) #FactualKnowledge #KeyPoint Notes #AgentSkills Issue Date: 2026-04-21 GPT Summary- 検索強化生成(RAG)の限界を克服するために、Corpus2Skillを提案。これは文書コーパスを階層的なスキルディレクトリに変換し、LLMエージェントが効率的にナビゲート可能にする。文書をクラスタリングし、各レベルで要約を生成して構築。提供時に、エージェントはコーパス全体を把握し、段階的にトピックを掘り下げ、証拠を効果的に組み合わせる。実験により、WixQAのベンチマークでRAGの他の手法を上回る性能を示した。 Comment
元ポスト:
Agent Skillsの機構を利用し、Skillsを検索におけるIndexのような位置づけで活用し、Skillsを用いて階層化された知識をnavigateさせることで、抽象的な情報からより細かい情報までdrill-downさせるような挙動を実現させ、RAGの性能を向上させる。
Skillsを定義する際は、
- root level (Skill.md)
- leaf level (Index.md)
によって構成され、root levelではトピックに関する情報+クラスタのメタ情報、leaf levelでは個別のdocのtitle+IDによって構成される。
Documentを階層化する際にはクラスタリングを用いる。具体的にはクラスタリングを実施し、クラスタの内容をLLMに要約させ、要約させた情報に基づいてさらにクラスタリングをする、という処理を繰り返すことで階層化を実現していそうに見える。Servingの時はSkill.md, Index.md, Document Storeに対して、2種類のツール `code_execution`, `get_document` を用いて、ツリーを探索し、relevantなdocを取得する。code_executionは具体的には、SKILL.mdとIndex.mdをviewコマンドによって閲覧し、階層構造全体を俯瞰できるようにする。get_documentでは、docのidentifierを用いて、identifierと対応するdocの全文を取得する。
BM25, Denseなどのbaselineと比較して高い性能を獲得している。性能に対してコスト比が併記されているが、トークン空間上で思考し探索をするためコストは高いように見える。個人的に気になるのは、金銭的なコストもそうだが、latencyである。embeddingを用いたRAGに対して、相当latencyが遅いのではないか?と思われる。
[Paper Note] Flash-KMeans: Fast and Memory-Efficient Exact K-Means, Shuo Yang+, arXiv'26, 2026.03
Paper/Blog Link My Issue
#EfficiencyImprovement #MachineLearning #read-later #Selected Papers/Blogs #Author Thread-Post Issue Date: 2026-03-14 GPT Summary- 本研究では、$k$-meansアルゴリズムをオンライン処理に適用するために再設計し、既存のGPU実装におけるボトルネックを解消するFlash-kmeansを提案する。この実装は、距離計算とargminを統合し中間メモリの使用を回避、またセントロイド更新の競合を低減する2つの革新を導入。評価結果では、Flash-kmeansが既存のベースラインを最大17.9倍上回り、業界標準ライブラリに対しても大幅なスピードアップを実現した。 Comment
元ポスト:
著者ポスト:
著者ポスト:
デモ動画が含まれており驚異的な速さ
[Paper Note] CLUE: Non-parametric Verification from Experience via Hidden-State Clustering, Zhenwen Liang+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#NLP #LanguageModel #read-later #Verification Issue Date: 2025-10-03 GPT Summary- 大規模言語モデル(LLM)の出力品質評価において、従来の方法は表面的な手がかりに依存しがちで、信頼度のキャリブレーションが不十分な場合に失敗することがある。本研究では、隠れ状態を直接検証する新たなアプローチ「Clue」を提案し、隠れ活性化の軌跡を用いて推論の正確性を分類する。Clueは非パラメトリックな検証器で、過去の経験に基づくクラスタリングを行い、LLMを判定者とするベースラインを上回る成果を示した。特に、AIME 24において精度を56.7%から70.0%に向上させた。 Comment
元ポスト:
