FactualKnowledge


Paper/Blog Link My Issue
#InformationRetrieval #NLP #LanguageModel #AIAgents #RAG(RetrievalAugmentedGeneration) #KeyPoint Notes #Clustering-based #AgentSkills Issue Date: 2026-04-21 GPT Summary- 検索強化生成(RAG)の限界を克服するために、Corpus2Skillを提案。これは文書コーパスを階層的なスキルディレクトリに変換し、LLMエージェントが効率的にナビゲート可能にする。文書をクラスタリングし、各レベルで要約を生成して構築。提供時に、エージェントはコーパス全体を把握し、段階的にトピックを掘り下げ、証拠を効果的に組み合わせる。実験により、WixQAのベンチマークでRAGの他の手法を上回る性能を示した。 Comment

元ポスト:

Loading…

Agent Skillsの機構を利用し、Skillsを検索におけるIndexのような位置づけで活用し、Skillsを用いて階層化された知識をnavigateさせることで、抽象的な情報からより細かい情報までdrill-downさせるような挙動を実現させ、RAGの性能を向上させる。
image

Skillsを定義する際は、
- root level (Skill.md)
- leaf level (Index.md)

によって構成され、root levelではトピックに関する情報+クラスタのメタ情報、leaf levelでは個別のdocのtitle+IDによって構成される。
image

Documentを階層化する際にはクラスタリングを用いる。具体的にはクラスタリングを実施し、クラスタの内容をLLMに要約させ、要約させた情報に基づいてさらにクラスタリングをする、という処理を繰り返すことで階層化を実現していそうに見える。Servingの時はSkill.md, Index.md, Document Storeに対して、2種類のツール `code_execution`, `get_document` を用いて、ツリーを探索し、relevantなdocを取得する。code_executionは具体的には、SKILL.mdとIndex.mdをviewコマンドによって閲覧し、階層構造全体を俯瞰できるようにする。get_documentでは、docのidentifierを用いて、identifierと対応するdocの全文を取得する。
image

BM25, Denseなどのbaselineと比較して高い性能を獲得している。性能に対してコスト比が併記されているが、トークン空間上で思考し探索をするためコストは高いように見える。個人的に気になるのは、金銭的なコストもそうだが、latencyである。embeddingを用いたRAGに対して、相当latencyが遅いのではないか?と思われる。
image




Paper/Blog Link My Issue
#NLP #AIAgents #Chain-of-Thought #Reasoning #PRM #Initial Impression Notes Issue Date: 2026-04-17 GPT Summary- PRAは、凍結済みポリシーに対するオンラインかつ段階的な報酬を提供することで、推論プロセスを改善。検索ベースのデコードにより、生成ステップごとに候補をランキングし、剪定する。医療推論ベンチマークで一貫して高い性能を示し、未見のポリシーモデルに対しても精度を最大25.7%向上させる。PRAはドメイン固有の報酬モジュールを通じて、複雑なドメインで再訓練なしに新たなバックボーンを展開可能にする。 Comment

pj page: https://process-reward-agents.github.io/

元ポスト:

Loading…

Reasoning中に独立したProcess Reward Agent (PRA) によって外部知識からevidenceを検索しreasoning stepに対してrewardを与えることで、reasoning step単位のrewardを実現し、これによりknowledge-intensiveなドメインに対してより頑健な推論が可能になる、という感じだろうか。medical domainで評価しており、self-consistency+RAGなどの手法を上回っているように見える(が、Fair Comparisonになっているだろうか、という点が少し気になる)。あとは、汎用的な手法だと思われるので、medicalドメインだけでなく他のknowledge-intentiveなドメインでの評価もあるとなお良さそうに感じる。
image




Paper/Blog Link My Issue
#NLP #LanguageModel #PEFT(Adaptor/LoRA) #memory #One-Line Notes #DownstreamTasks #Test Time Training (TTT) Issue Date: 2026-03-01 GPT Summary- 長い入力を効率的に処理するために、Doc-to-LoRA(D2L)を提案。これはメタラーニングを用いて、単一の前方伝播で情報を効率よく蒸留し、適応型LoRAアダプタを生成する。D2Lにより、推論時のレイテンシとメモリ消費を削減し、文脈を超えてゼロショット精度を向上。実世界のデータセットにおいても、標準的な文脈蒸留を上回る性能を示す。 Comment

- [Paper Note] Text-to-LoRA: Instant Transformer Adaption, Rujikorn Charakorn+, ICML'25, 2025.06

に続く研究。

元ポスト:

Loading…

ポイント解説:

Loading…


Doc-to-LoRAの目的は、文書レベルの情報をメモリの内部パラメータとして埋め込むこと。




Paper/Blog Link My Issue
#Analysis #NLP #Dataset #LanguageModel #ReinforcementLearning #Evaluation #SelfImprovement #PostTraining #read-later #Selected Papers/Blogs #One-Line Notes #ContinualLearning #Initial Impression Notes Issue Date: 2026-02-10 GPT Summary- 自己進化には、エージェントが生涯学習者として新しい経験を内面化し、将来の問題解決に活かすことが必要。しかし、以前の知識の混在と推論の複雑さが測定を妨げる。SE-Benchという診断環境を導入し、エージェントが新しいAPIドキュメントを使用することで評価を行い、知識の保持と内面化の新たな洞察を得た。特に「クローズドブック訓練」が知識保持に必要であり、標準的な強化学習が新しい知識を内面化できないことを示す。SE-Benchは知識内面化のための厳密なプラットフォームを提供する。 Comment

元ポスト:

Loading…

関数をリネームし関連するAPIドキュメント(今回はnumpy)を更新し、Claudeを用いてテストケースを生成し、複数のLLMのVotingで検証可能かどうかを判定した後人手による検証を行いフィルタリングする。テスト時にクローズドブックの設定で評価することで、インタフェースに関するモデルのFactual Knowledgeを更新しないとモデルはテストケースに正解できず、モデルが内部パラメータに保持するFactual Knowledgeをどれだけ適切に保持、更新しているかを評価するようなコントロールされた環境下でのベンチマークに見える。

image

APIに関するドキュメントの文脈をしっかり変更しないと元のモデルが文脈から過去の関数名との対応関係を類推できてしまいそうだが、その辺はどうなっているのだろうか。




Paper/Blog Link My Issue
#NLP #LanguageModel #Coding #KnowledgeEditing #Generalization #Stability Issue Date: 2026-02-05 GPT Summary- LLMsが最新情報に依存する中、コスト高な再訓練の代わりに、CoRSAというパラメータ効率的な知識編集フレームワークを提案。これにより、一般化や安定性を向上させつつ、新旧知識の対立を解決。3つのベンチマークで大幅な一般化改善を示し、LoRAと比較して更新効率と忘却軽減を達成。さらに、コードドメインにも適用可能で、強力なベースラインを上回る性能を発揮。 Comment

元ポスト:

Loading…

ベンチマーク:
- [Paper Note] Zero-Shot Relation Extraction via Reading Comprehension, Omer Levy+, CoNLL'17, 2017.06
- [Paper Note] CounterBench: A Benchmark for Counterfactuals Reasoning in Large Language Models, Yuefei Chen+, arXiv'25, 2025.02




Paper/Blog Link My Issue
#Analysis #MachineLearning #Transformer #Memorization #Geometric Issue Date: 2026-01-05 GPT Summary- 深層系列モデルは、エンティティ間の新しいグローバルな関係を幾何学的記憶として保存することを提案。これにより、難しい推論タスクが簡単なナビゲーションタスクに変換されることを示す。ブルートフォース検索よりも複雑な幾何学が学習されることを主張し、Node2Vecとの関連を分析して、自然に生じるスペクトルバイアスからこの幾何学が生まれることを示す。Transformerメモリの幾何学的強化の可能性を指摘し、知識獲得や忘却に関する直感を再考することを促す。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#Analysis #NLP #Dataset #LanguageModel #Author Thread-Post Issue Date: 2025-06-17 GPT Summary- LLMの文脈情報とパラメトリック知識の対立を評価する診断フレームワークを提案。知識の対立はタスクに影響を与えず、一致時にパフォーマンスが向上。モデルは内部知識を抑制できず、対立の理由が文脈依存を高めることを示した。これにより、LLMの評価と展開における知識の対立の重要性が強調される。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#NLP #LanguageModel #KnowledgeEditing #meta-learning #One-Line Notes #Author Thread-Post Issue Date: 2025-06-17 GPT Summary- PropMENDは、LLMsにおける知識伝播を改善するためのハイパーネットワークベースのアプローチである。メタ学習を用いて、注入された知識がマルチホップ質問に答えるために伝播するように勾配を修正する。RippleEditデータセットで、難しい質問に対して精度がほぼ2倍向上し、Controlled RippleEditデータセットでは新しい関係やエンティティに対する知識伝播を評価。PropMENDは既存の手法を上回るが、性能差は縮小しており、今後の研究で広範な関係への知識伝播が求められる。 Comment

元ポスト:

Loading…

従来のKnowledge Editing手法は新たな知識を記憶させることはできる(i.e., 注入した知識を逐語的に生成できる;東京は日本の首都である。)が、知識を活用することは苦手だった(i.e., 日本の首都の気候は?)ので、それを改善するための手法を提案している模様。

既存手法のlimitationは
- editing手法で学習をする際に知識を伝搬させるデータが無く
- 目的関数がraw textではなく、QA pairをSFTすること

によって生じるとし、

- 学習時にpropagation question(Figure1のオレンジ色のQA; 注入した知識を活用して推論が必要なQA)を用意しどのように知識を伝搬(活用)させるかを学習し
- 目的関数をCausal Language Modeling Loss

にすることで改善する、とのこと。

image
image

non-verbatimなQA(注入された知識をそのまま回答するものではなく、何らかの推論が必要なもの)でも性能が向上。
image

ベースライン:
- [Paper Note] Mass-Editing Memory in a Transformer, Kevin Meng+, arXiv'22, 2022.10
- [Paper Note] Fast Model Editing at Scale, Eric Mitchell+, ICLR'22




Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #COLM Issue Date: 2025-04-01 GPT Summary- 大規模言語モデル(LLMs)が内部に保持する事実知識が、出力される知識量を上回るかどうかを評価するためのフレームワークを提案。知識を定量化するために、正解-不正解ペアの割合を基準にし、情報としてトークンレベルの確率や中間計算を用いる。ケーススタディで3つのLLMを用いた結果、内部知識が外部知識を平均40%上回ることが示された。また、正解が内在していても頻繁に出力されない場合が確認され、これはLLMsの生成能力の限界を示唆する。最終的には、特定の回答が一貫して高く評価される可能性が示された。 Comment

元ポスト:

Loading…


※ 現在は削除済みなようである。

openreview: https://openreview.net/forum?id=f7GG1MbsSM




Paper/Blog Link My Issue
#Analysis #NLP #Transformer #ACL #KnowledgeEditing #Selected Papers/Blogs #Encoder #KeyPoint Notes #Reference Collection Issue Date: 2024-07-11 GPT Summary- 大規模な事前学習言語モデルにおいて、事実知識の格納方法についての研究を行いました。具体的には、BERTのfill-in-the-blank cloze taskを用いて、関連する事実を表現するニューロンを特定しました。また、知識ニューロンの活性化と対応する事実の表現との正の相関を見つけました。さらに、ファインチューニングを行わずに、知識ニューロンを活用して特定の事実知識を編集しようと試みました。この研究は、事前学習されたTransformers内での知識の格納に関する示唆に富んでおり、コードはhttps://github.com/Hunter-DDM/knowledge-neuronsで利用可能です。 Comment

関連:
- 大規模言語モデルにおいて、「知識は全結合層に蓄積される」という仮説についての文献調査, Kan Hatakeyama, 2023.10

日本語解説: https://speakerdeck.com/kogoro/knowledge-neurons-in-pretrained-transformers-for-snlp2022

関連:
- [Paper Note] Transformer Feed-Forward Layers Are Key-Value Memories, Mor Geva+, EMNLP'21

上記資料によると、特定の知識を出力する際に活性化する知識ニューロンを特定する手法を提案。MLMを用いたclozeタスクによる実験で[MASK]部分に当該知識を出力する実験をした結果、知識ニューロンの重みをゼロとすると性能が著しく劣化し、値を2倍にすると性能が改善するといった傾向がみられた。 ケーススタディとして、知識の更新と、知識の削除が可能かを検証。どちらとも更新・削除がされる方向性[^1]へモデルが変化した。

また、知識ニューロンはTransformerの層の深いところに位置している傾向にあり、異なるrelationを持つような関係知識同士では共有されない傾向にある模様。

[^1]: 他の知識に影響を与えず、完璧に更新・削除できたわけではない。知識の更新・削除に伴いExtrinsicな評価によって性能向上、あるいはPerplexityが増大した、といった結果からそういった方向性へモデルが変化した、という話




Paper/Blog Link My Issue
#Analysis #NLP #Transformer #EMNLP #Selected Papers/Blogs Issue Date: 2025-07-04 GPT Summary- フィードフォワード層はトランスフォーマーモデルの大部分を占めるが、その役割は未探求。研究により、フィードフォワード層がキー・バリュー・メモリとして機能し、トレーニング例のテキストパターンと相関することを示す。実験で、下層は浅いパターン、上層は意味的なパターンを学習し、バリューが出力分布を誘導することが確認された。最終的に、フィードフォワード層の出力はメモリの合成であり、残差接続を通じて洗練される。 Comment

日本語解説(p.5より): https://speakerdeck.com/kogoro/knowledge-neurons-in-pretrained-transformers-for-snlp2022?slide=5




Paper/Blog Link My Issue
#NeuralNetwork #Dataset #InformationExtraction #ReadingComprehension #Zero/FewShotLearning #CoNLL #KnowledgeEditing #RelationExtraction Issue Date: 2025-08-26 GPT Summary- 関係抽出を自然言語の質問に還元することで、ニューラル読解理解技術を活用し、大規模なトレーニングセットを構築可能にする。これにより、ゼロショット学習も実現。ウィキペディアのスロットフィリングタスクで、既知の関係タイプに対する高精度な一般化と未知の関係タイプへのゼロショット一般化が示されたが、後者の精度は低く、今後の研究の基準を設定。 Comment

Knowledge Editingのベンチマークとしても利用される




Paper/Blog Link My Issue
#Article #Analysis #MachineLearning #Transformer #Blog #One-Line Notes Issue Date: 2023-10-29 Comment

タイトルの通り、知識がFFNに蓄積されていると主張しているらしい原論文を読み解いている。まとめを引用すると

> 「知識は全結合層に蓄積される」という表現は、ややラジカルで、
少なくともこの論文では「全結合層は知識獲得において重要」という程度
の、もう少しマイルドな主張をしているように見受けられました。

とのこと。