Multi


Paper/Blog Link My Issue
#ComputerVision #NLP #TextToImageGeneration #Reasoning #OpenWeight #Test-Time Scaling #read-later #Selected Papers/Blogs #RewardModel Issue Date: 2026-04-19 GPT Summary- 報酬モデルは、評価を単一のスコアに縮約するのではなく、明示的で多次元の批評を生成することで、生成物の改善を促進する。本研究では、構造化された合理根拠を用いて報酬を提供し、Generate-Critique-Refineループにより批評をプロンプト修正に変換する方法を示す。また、Preference-Anchored Rationalization(PARROT)を導入し、容易に得られるデータから高品質な合理根拠を回収するフレームワークを提供する。得られたRationalRewardsモデルは、オープンソースの中で最先端の予測精度を達成し、より少ない訓練データで優れた性能を発揮する。批評-修正ループは、既存モデルの潜在能力を引き出し、より良い生成結果を提供する。 Comment

pj page: https://tiger-ai-lab.github.io/RationalRewards/

元ポスト:

Loading…




Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #AIAgents #TabularData #SelfImprovement #ACL #read-later #Selected Papers/Blogs #One-Line Notes #Author Thread-Post Issue Date: 2026-04-07 GPT Summary- 表の理解と推論を高めるため、マルチエージェントフレームワークMixture-of-Mindsを提案。計画、コーディング、回答の役割に分割し、各エージェントが特定の側面を担う。自己改善トレーニングにモンテカルロ木探索を用いて強化学習を最適化。実験結果ではTableBenchで62.13%の改善を達成し、構造化されたアプローチの有効性を示す。 Comment

元ポスト:

Loading…

複雑なタスクを特化型のエージェントに分解し、個々のエージェントを学習するためのpseudo-gold trajectoryを合成しエージェントをFinetuning。その後、FinetuningしたエージェントをGRPOによってend-to-endで学習する、という話に見える。pseudo-gold trajectoryは、個々の特化型のエージェントに対して複数の解候補を出力させ、解候補を次のエージェントに入力し解候補を生成...という手順をsequentialに適用していき、最終的に正しい応答を導き出せたtrajectoryを後ろ向きにたどることによって、pseudo-gold trajectoryを得る。FinetuningとRLがどのような順番で実施されるか、あるいは繰り返されるのか、といった部分についてはしっかり読み解けていない。

image

表データで実験をしているが、それは一つの応用例であり、汎用的に利用可能な手法と考えられる。




Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #Coding #Architecture #SoftwareEngineering #LongHorizon #Asynchronous Issue Date: 2026-03-25 GPT Summary- AIエージェントは孤立したSWEタスクでは高い能力を示すが、依存するサブタスクを含む長期的なタスクには課題が残る。非同期のマルチエージェント協調が期待されるが、同時編集や依存関係の同期、進捗の統合には困難が伴う。これに対処するため、CAIDという新たな協調パラダイムを導入。これにより中央管理者を介したタスク計画と、分離された作業スペースでの同時実行が実現され、進捗の統合が可能になる。実験的にCAIDは、PaperBenchで26.7%、Commit0で14.3%の精度向上を示し、マルチエージェント協調の調整機構としてブランチとマージを明らかにした。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#WorldModels #4D (Video) Issue Date: 2026-03-17 GPT Summary- Solarisは、マルチプレイヤー対応のビデオ生成モデルであり、既存の単一エージェント視点の限界を克服する。Minecraftなどのゲームで協調的なマルチエージェント相互作用を捉えるためのデータシステムを開発し、1264万のマルチプレイヤーフレームを収集。段階的な訓練パイプラインにより、単一プレイヤーからマルチプレイヤーへの移行を実現し、Checkpoined Self Forcingという新しいメモリ効率型アプローチを導入。実験結果は、提案したアーキテクチャが既存の手法を上回ることを示し、オープンソース化によってマルチエージェント・ワールドモデルの基盤を築くことを目指す。

Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #read-later #Selected Papers/Blogs #Initial Impression Notes #Society Issue Date: 2026-02-18 GPT Summary- AIエージェント社会は人間の社会システムに似た収束ダイナミクスを辿るのかという問いに対し、初の大規模な診断を行った。動的進化を定量的に評価するフレームワークを導入し、言語の安定化や個体の惰性を測定。分析の結果、意味は迅速に安定化するが、エージェント間の多様性と語彙の変化は維持され、均質化には逆らっている。しかし、強い惰性により影響力は一過性で、安定した集団的影響の形成が妨げられている。これにより、相互作用と社会化に関する新たなデザイン原理が示唆される。 Comment

元ポスト:

Loading…

Moltbook:
- Moltbook is the most interesting place on the internet right now, Simon Willisons's blog, 2026.01

元ポストとアブストしか読めていないのだが、いまのAI Agentはたとえば下記Position Paperのように他者と協働するように作られていない[^1]からこのような現象が生じるのではないか。また、Moltbookにデプロイされているエージェントがどのような目的を設定されているかはわからないが、明確な目的やタスクが与えられないで活動している場合、エージェントの学習データはそのような状況を前提としていないので、エージェントの振る舞いもランダムなノイズのようなものになってしまうのではなかろうか。

- [Paper Note] Position: Humans are Missing from AI Coding Agent Research, Wang+, 2026.02

逆に他者と協働しながら、特定のタスクの正しい完了を報酬とするのではなく、もっと自身の内面的な感情や動機に対して報酬が働くような枠組みが発展し、かつ協働をすることのスキルを得られるようなデータが増えればまた違ったことが起きるのではなかろうか。

[^1]:SWE Agentの例ではあるが現在のAAgentはタスクを正しく完了したことをシグナルとして訓練されるパラダイムに支配されているので協働的な要素は生まれづらいと推察される。それはおそらくマルチエージェントでも一緒である。




Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #AIAgents #Distillation #PostTraining Issue Date: 2026-02-10 GPT Summary- LLMを用いたマルチエージェントシステムを、AgentArkフレームワークで単一モデルに蒸留し計算効率を向上。三つの蒸留戦略で推論性能と自己修正能力を強化。効率的かつロバストなマルチエージェント開発を目指す。 Comment

関連:
- [Paper Note] Reasoning Models Generate Societies of Thought, Junsol Kim+, arXiv'26, 2026.01




Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #Selected Papers/Blogs #memory #KeyPoint Notes #Adaptive #Initial Impression Notes Issue Date: 2026-02-07 GPT Summary- LatentMemは、LLMを用いたマルチエージェントシステム向けに設計された学習可能なメモリフレームワークで、カスタマイズと情報最適化を実現します。経験バンクと潜在メモリを活用し、メモリエントリーの均質化と情報過多の問題を解決。タスクレベルの最適化信号を利用することで、従来のメモリ設計に対し最大19.36%の性能向上を達成しました。 Comment

元ポスト:

Loading…

skim readingしかできていないが、現在のMulti AI Agentsにおけるメモリ機構はstaticな機構であるため、メモリが均質化してしまいエージェントの役割ごとに最適化されておらず、かつlong trajectoryを扱う際に情報がコンパクトに圧縮されておらずtrajectoryが肥大化していってしまう。このため、エージェントの役割ごとに異なるメモリを生成し、かつ固定長の潜在表現に情報を圧縮する(これによりlong contextでのメモリ肥大化を防ぐ)ような新たなDeep Neural Networkに基づくMemory ComposerをRLを通じて学習するという話のようである。

エージェントのプロファイルと、experience bankから抽出された現在のクエリに対するtrajectoryに基づいて、個々のエージェントごとにrelevantな情報が圧縮されたメモリの潜在表現を生成するようなMemory ComposerをRLで学習し活用する(LMPO)。このとき、エージェントのパラメータは更新せずfreezeする。あくまでバックボーンはfreezeして変更せず、メモリ機構のみを最適化することに焦点を当てている。Memory Composerは、与えられたメモリ, エージェントの(freezeされた)パラメータ, 与えられたプロンプトによってreasoningを実施し、最終的な応答が正しかったかどうかに基づいてGRPOベースのRLVR(=LMPO)を実施することによって学習する。エージェントがメモリを活用して得られたtrajectoryはexperience bankに格納されて利用される。
image

既存手法と比べて多くのQAベンチマークで高い性能を獲得し、OODなベンチマークでもある程度は汎化するようである。
image

in-domainなベンチマークと比較して、out-of-domainなベンチマークでの性能向上が小さいので、汎化性能にまだ課題があるように感じた。解決している問題は非常に重要だと考えられ、どのようにすれば汎用的なMemory Composerが学習できるか?を考えるとおもしろそうである。




Paper/Blog Link My Issue
#NLP #ReinforcementLearning #AIAgents #Test-Time Scaling #PostTraining #LongHorizon #GPUKernel #Environment #Author Thread-Post Issue Date: 2026-02-06 GPT Summary- 高品質のカーネル生成はスケーラブルなAIシステムの鍵であり、そのためのLLM訓練には十分なデータと堅牢な環境が必要です。本研究では、KernelGYMを設計し、報酬ハッキングを防ぐマルチターンRL手法を検討します。TRLOOを提案し、偏ったポリシー勾配問題を解決。訓練されたDr.Kernel-14Bは高性能を達成し、生成されたカーネルの31.6%がTorch参照に対して1.2倍のスピードアップを実現しました。全リソースはGitHubで公開されています。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #AIAgents #PostTraining #Initial Impression Notes Issue Date: 2026-02-06 GPT Summary- マルチエージェントシステムを用いた情報探索の幅のスケーリングを探求する本研究では、WideSeek-R1フレームワークを提案。リードエージェントとサブエージェントが共同最適化することで、20,000のタスクで高い性能を発揮。WideSeek-R1-4BはアイテムF1スコア40.0%を達成し、性能がサブエージェント数の増加と共に向上することを示す。 Comment

元ポスト:

Loading…

Context Foldingと比較した時の新規性がweaknessに感じる:
- [Paper Note] Scaling Long-Horizon LLM Agent via Context-Folding, Weiwei Sun+, arXiv'25, 2025.10




Paper/Blog Link My Issue
#ComputerVision #NLP #Dataset #AIAgents #Evaluation #DiffusionModel #VisionLanguageModel #2D (Image) #AcademicWriting Issue Date: 2026-02-03 GPT Summary- PaperBananaは、学術イラストの自動生成を実現するエージェントフレームワークであり、視覚言語モデルと画像生成モデルを活用しています。専門エージェントを調整して参照を取得し、コンテンツとスタイルを計画、画像をレンダリングし、批評を通じて洗練を行います。PaperBananaBenchを用いた評価では、多様なスタイルの292のテストケースにおいて、忠実性や美的感覚で主要なベースラインを上回る成果を示しました。これにより、高品質な出版準備の整ったイラスト生成が可能となります。 Comment

pj page: https://dwzhu-pku.github.io/PaperBanana/

元ポスト:

Loading…




Paper/Blog Link My Issue
#ComputerVision #Transformer #Attention #PositionalEncoding #2D (Image) #One-Line Notes #DepthEstimation #NovelViewSynthesis Issue Date: 2026-01-23 GPT Summary- 我々は、マルチビュー変換器における位置エンコーディングの新手法RayRoPEを提案し、パッチをユニークにエンコードしてSE(3)不変な注意を実現します。既存のエンコーディング方式の限界を踏まえ、光線に基づいてパッチの位置を表現し、ジオメトリに配慮した予測点を使用します。RayRoPEは多周波数の類似性を計算するためのクエリフレームの投影座標を確立し、不正確な3D点の不確実性に対処するための位置エンコーディング手法を提供します。視点合成とステレオ深度推定のタスクにおいて、代替方式に対して一貫した性能向上を示し、RGB-D入力の効果的な利用も確認しました。 Comment

pj page: https://rayrope.github.io/

元ポスト:

Loading…

複数視点(multiview)での画像を入力とするtransformerの位置エンコーディングを改善した研究で、multiviewのattentionは下記のような性質を持つのが理想としており

(a) 座標系の取り方に対してattentionの出力が不変であり
(b) 同じ点であれば、どのviewからのattention出力であっても同一であるべき
(c) 幾何学的に近い点の方が類似度が高くあるべき
(d) 様々な粒度で特徴を捉えられるべき(高周波成分、低周波成分)

これらを獲得できるようにray(方向に関する情報)を取り入れるような新たなRoPEアーキテクチャを考案した、というような感じらしい(ゆるふわ理解)。

image

pj pageに他手法と比較して生成される別方向の画像などが高品質になっている例が掲載されている。




Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #RewardModel Issue Date: 2026-01-19 GPT Summary- 報酬エンジニアリングは多エージェント強化学習の重要な課題であり、環境の非定常性や相互作用の複雑さがその難しさを増しています。最近の大規模言語モデル(LLMs)の進展により、数値的報酬から言語ベースの目的指定への移行が期待されています。LLMsは自然言語から報酬関数を合成したり、最小限の人間の介入で報酬を適応させたりする能力を示しています。また、言語による監視が従来の報酬エンジニアリングの代替手段として機能する新たなパラダイム(RLVR)が提案されています。これらの変化は、セマンティック報酬の指定や動的報酬の適応と関連し、未解決の課題や新しい研究方向が示唆されます。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#MachineLearning #NLP #LanguageModel #AIAgents #Generalization #EvolutionaryAlgorithm #AdversarialTraining Issue Date: 2026-01-12 GPT Summary- 大規模言語モデル(LLMs)を用いた自己対戦アルゴリズム「デジタルレッドクイーン(DRQ)」を提案。DRQは、コアウォーというゲームでアセンブリプログラムを進化させ、動的な目的に適応することで「レッドクイーン」ダイナミクスを取り入れる。多くのラウンドを経て、戦士は人間の戦士に対して一般的な行動戦略に収束する傾向を示し、静的な目的から動的な目的へのシフトの価値を強調。DRQは、サイバーセキュリティや薬剤耐性などの実用的な多エージェント敵対的ドメインでも有用である可能性を示唆。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#NLP #LanguageModel #Alignment #ReinforcementLearning #PostTraining #One-Line Notes Issue Date: 2026-01-09 GPT Summary- 言語モデルの行動を多様な人間の好みに沿わせるために、複数の報酬を用いた強化学習(RL)が重要である。しかし、Group Relative Policy Optimization(GRPO)を適用すると、報酬が同一のアドバンテージ値に収束し、トレーニング信号の解像度が低下する問題がある。本研究では、報酬の正規化を分離する新手法GDPOを提案し、トレーニングの安定性を向上させる。GDPOはツール呼び出し、数学的推論、コーディング推論のタスクでGRPOと比較し、すべての設定でGDPOが優れた性能を示した。 Comment

元ポスト:

Loading…

pj page: https://nvlabs.github.io/GDPO/

multiple rewardを用いたRLにおいて、GRPOを適用すると異なるrewardのsignalが共通のadvantageに収束してしまう問題を改善する手法を提案。
advantageのnormalizationをrewardごとに分離することによって、異なるrewardのsignalが共通のadvantageの値に埋もれてしまう問題を解決することでmultiple rewardの設定における学習効率を改善する、といった話に見える。下記例は2つのbinary rewardの例でGRPOではadvantageが2種類の値しかとらないが、GDPOでは3種類の異なるadvantageをとり、rewardの解像度が向上していることがわかる。

image




Paper/Blog Link My Issue
#NLP #LanguageModel #Alignment #ReinforcementLearning #AIAgents #Safety #ICLR #One-Line Notes #Author Thread-Post Issue Date: 2025-10-15 GPT Summary- WaltzRLという新しいマルチエージェント強化学習フレームワークを提案し、LLMの有用性と無害性のバランスを取る。会話エージェントとフィードバックエージェントを共同訓練し、応答の安全性と有用性を向上させる。実験により、安全でない応答と過剰な拒否を大幅に減少させることを示し、LLMの安全性を向上させる。 Comment

元ポスト:

Loading…

マルチエージェントを用いたLLMのalignment手法。ユーザからのpromptに応答する会話エージェントと、応答を批評するフィードバックエージェントの2種類を用意し、違いが交互作用しながら学習する。フィードバックエージェント会話エージェントが安全かつ過剰に応答を拒絶していない場合のみ報酬を与え、フィードバックエージェントのフィードバックが次のターンの会話エージェントの応答を改善したら、フィードバックエージェントに報酬が与えられる、みたいな枠組みな模様。

著者による一言解説:

Loading…




Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #AIAgents #Evaluation #One-Line Notes Issue Date: 2026-02-03 GPT Summary- AIを活用した産業資産ライフサイクル管理は、運用ワークフローの自動化を目指し、人間の負荷を軽減します。従来の技術は特定の問題に対処するに過ぎませんでしたが、AIエージェントと大規模言語モデルの登場により、資産ライフサイクル全体のエンドツーエンド自動化が可能になりました。本論文では、AssetOpsBenchというエージェント開発のための統合フレームワークを紹介し、知覚、推論、制御を統合した自律的なエージェントの構築について具体的な洞察を提供します。ソフトウェアはGitHubで公開されています。 Comment

dataset: https://arxiv.org/abs/2506.03828

元ポスト:

Loading…

openreview: https://openreview.net/forum?id=ld6JUQbhes

産業におけるアセットの管理に関する(非常に複雑な)end-to-endなベンチマークで、multi agentに対する評価が前提となっている模様。
image




Paper/Blog Link My Issue
#ComputerVision #read-later #3D (Scene) #4D (Video) #InverseRendering Issue Date: 2025-12-28 GPT Summary- フィードフォワード型のマルチビュー逆レンダリングフレームワークを提案し、RGB画像のシーケンスから空間的に変化する材料特性を直接予測。視点間の注意を交互に行うことで、一貫したシーンレベルの推論を実現。ラベルのない実世界のビデオを用いたファインチューニング戦略により、実世界の画像への一般化を向上。実験により、マルチビューの一貫性と推定精度で最先端の性能を達成。 Comment

pj page: https://maddog241.github.io/mvinverse-page/

元ポスト:

Loading…

headは以下の研究を踏襲しているとのこと:
- [Paper Note] Vision Transformers for Dense Prediction, René Ranftl+, ICCV'21, 2021.03




Paper/Blog Link My Issue
#EfficiencyImprovement #InformationRetrieval #NLP #ReinforcementLearning #AIAgents #RAG(RetrievalAugmentedGeneration) #KeyPoint Notes Issue Date: 2025-12-17 GPT Summary- Retrieval-Augmented Generation (RAG)を用いた新しいRLベースのフレームワーク\model{}を提案。これにより、LLMsがマルチターンのグラフ-テキストハイブリッドRAGを実行し、推論のタイミングや情報取得を学習。二段階のトレーニングフレームワークにより、ハイブリッド証拠を活用しつつリトリーバルのオーバーヘッドを回避。実験結果は、\model{}が既存のRAGベースラインを大幅に上回ることを示し、複雑な推論における効率的なリトリーバルの利点を強調。 Comment

元ポスト:

Loading…

モデル自身が何を、いつ、どこからretrievalし、いつやめるかをするかを動的にreasoningできるようRLで学習することで、コストの高いretrievalを削減し、マルチターンRAGの性能を保ちつつ効率をあげる手法(最大で検索のターン数が20パーセント削減)とのこと。

学習は2ステージで、最初のステージでanswerに正しく辿り着けるよう学習することでreasoning能力を向上させ、次のステージで不要な検索が削減されるような効率に関するrewardを組み込み、accuracyとcostのバランスをとる。モデルはツールとして検索を利用できるが、ツールはpassage, graph, hybridの3つの検索方法を選択できる。

image




Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #ScientificDiscovery #read-later Issue Date: 2025-12-06 GPT Summary- PARCは、自律的に長期的な計算タスクを実行するコーディングエージェントであり、自己評価と自己フィードバックを通じて高レベルのエラーを検出・修正します。材料科学の研究において重要な結果を再現し、数十の並列シミュレーションタスクを管理します。Kaggleを基にした実験では、最小限の指示からデータ分析を行い、競争力のある解決策を生成します。これにより、独立した科学的作業を行うAIシステムの可能性が示されました。 Comment

元ポスト:

Loading…

PFNから。




Paper/Blog Link My Issue
#NLP #LanguageModel #Test-Time Scaling #read-later #Selected Papers/Blogs #RewardModel #Reranking #One-Line Notes #GenerativeVerifier Issue Date: 2025-11-20 GPT Summary- 専門的な生成評価者のファインチューニングに関する研究で、250万サンプルのデータセットを用いて、シンプルな教師ありファインチューニング(SFT)アプローチでFARE(基盤自動推論評価者)をトレーニング。FARE-8Bは大規模なRLトレーニング評価者に挑戦し、FARE-20Bは新たなオープンソース評価者の標準を設定。FARE-20BはMATHでオラクルに近いパフォーマンスを達成し、下流RLトレーニングモデルの性能を最大14.1%向上。FARE-Codeはgpt-oss-20Bを65%上回る品質評価を実現。 Comment

HF: https://huggingface.co/collections/Salesforce/fare

元ポスト:

Loading…

これは素晴らしい。使い道がたくさんありそうだし、RLに利用したときに特定のデータに対して特化したモデルよりも優れた性能を発揮するというのは驚き。




Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #Reasoning #Test-Time Scaling #One-Line Notes #LongHorizon Issue Date: 2025-11-20 GPT Summary- LLMの限界を克服するために、MAKERというシステムを提案。これは、100万以上のステップをゼロエラーで解決可能で、タスクを細分化し、マイクロエージェントが各サブタスクに取り組むことでエラー修正を行う。これにより、スケーリングが実現し、組織や社会の問題解決に寄与する可能性を示唆。 Comment

元ポスト:

Loading…

しっかりと読めていないのだが、各タスクを単一のモデルのreasoningに頼るのではなく、
- 極端に小さなサブタスクに分解
- かつ、各サブタスクに対して複数のエージェントを走らせてvotingする

といったtest-time scalingっぽい枠組みに落とすことによってlong-horizonのタスクも解決することが可能、というコンセプトに見える。




Paper/Blog Link My Issue
#Metrics #NLP #LanguageModel #ReinforcementLearning #Evaluation #Conversation #NeurIPS #Personality Issue Date: 2025-11-06 GPT Summary- LLMを用いた対話におけるペルソナの一貫性を評価・改善するフレームワークを提案。3つの自動メトリックを定義し、マルチターン強化学習でファインチューニングを行うことで、一貫性を55%以上向上させる。 Comment

pj page: https://sites.google.com/view/consistent-llms

元ポスト:

Loading…




Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #SelfImprovement Issue Date: 2025-10-31 GPT Summary- 強化学習(RL)を用いたMulti-Agent Evolve(MAE)フレームワークを提案し、LLMの推論能力を向上させる。MAEは提案者、解決者、審査者の相互作用を通じて自己進化を促進し、数学や一般知識のQ&Aタスクを解決。実験により、MAEは複数のベンチマークで平均4.54%の性能向上を示し、人間のキュレーションに依存せずにLLMの一般的な推論能力を向上させるスケーラブルな手法であることが確認された。 Comment

元ポスト:

Loading…

concurrent work:
- [Paper Note] SPICE: Self-Play In Corpus Environments Improves Reasoning, Bo Liu+, arXiv'25, 2025.10

続報:コードとモデルがオープンに

Loading…

ポイント解説:

Loading…




Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #Hallucination #SelfImprovement #CurriculumLearning #Diversity Issue Date: 2025-10-29 GPT Summary- SPICE(Self-Play In Corpus Environments)は、自己改善システムのための強化学習フレームワークで、単一モデルが「挑戦者」と「推論者」の2役を担う。挑戦者は文書を抽出して多様な推論タスクを生成し、推論者はそれを解決する。これにより、自動カリキュラムが形成され、持続的な改善が促進される。SPICEは、既存の手法に比べて数学的および一般的な推論のベンチマークで一貫した向上を示し、挑戦的な目標の生成が自己改善に重要であることを明らかにした。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#ComputerVision #NLP #Dataset #QuestionAnswering #MultiModal #Conversation #VisionLanguageModel #2D (Image) #Author Thread-Post Issue Date: 2025-10-22 GPT Summary- 本研究では、視覚と言語のモデル(VLM)のために、24百万サンプルからなる統一コーパス「FineVision」を紹介。これは200以上のソースを統合し、半自動化されたパイプラインでキュレーションされている。データの衛生と重複排除が行われ、66の公的ベンチマークに対する汚染除去も適用。FineVisionで訓練されたモデルは、既存のオープンミックスモデルを上回る性能を示し、データ中心のVLM研究の加速を目指す。 Comment

pj page: https://huggingface.co/spaces/HuggingFaceM4/FineVision

関連:
- [Paper Note] Grounding Multilingual Multimodal LLMs With Cultural Knowledge, Jean de Dieu Nyandwi+, EMNLP'25

ポイント解説:

Loading…

著者ポスト:

Loading…




Paper/Blog Link My Issue
#Analysis #MachineLearning #NLP #AIAgents #TheoryOfMind #read-later #Selected Papers/Blogs #Personality Issue Date: 2025-10-21 GPT Summary- 本研究では、マルチエージェントLLMシステムが高次の構造を持つかどうかを情報理論的フレームワークを用いて検証。実験では、エージェント間のコミュニケーションがない状況で、時間的相乗効果が観察される一方、調整された整合性は見られなかった。ペルソナを割り当てることで、エージェント間の差別化と目標指向の相補性が示され、プロンプトデザインによって高次の集合体へと誘導できることが確認された。結果は、効果的なパフォーマンスには整合性と相補的な貢献が必要であることを示唆している。 Comment

元ポスト:

Loading…

非常にシンプルな設定でマルチエージェントによるシナジーが生じるか否か、そのための条件を検証している模様。小規模モデルだとシナジーは生じず、ペルソナ付与とTheory of Mindを指示すると効果が大きい模様




Paper/Blog Link My Issue
#NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #AIAgents #SyntheticData #ComputerUse #One-Line Notes Issue Date: 2025-10-21 GPT Summary- ハイブリッドアクションを用いた基盤モデル「UltraCUA」を提案し、GUIの原始的なアクションと高レベルのプログラムツール呼び出しを統合。自動化パイプライン、合成データエンジン、ハイブリッドアクション軌跡コレクション、二段階のトレーニングパイプラインを構成要素とし、実験により最先端エージェントに対して22%の改善と11%の速度向上を達成。エラー伝播を減少させつつ実行効率を維持することが確認された。 Comment

元ポスト:

Loading…

従来のCUAはGUIに対する低レベルの操作(クリック、タイプ、スクロール)を利用する前提に立つが、本研究ではそれらだけではなくより高レベルのprogramatic tool calls(e.g., python関数呼び出し、キーボードショートカット、スクリプト実行、API呼び出し等)をシームレスに統合できるように合成データを作成しAgentをらSFTとRLしましたらよりベンチマークスコア向上した、というような話に見える。




Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #AIAgents #Stability #Entropy Issue Date: 2025-10-21 GPT Summary- マルチターン環境でのLLMエージェント訓練における探索-活用カスケード失敗を特定し、エントロピー正則化ポリシー最適化(EPO)を提案。EPOは、探索を強化し、ポリシーエントロピーを制限することで、訓練の安定性を向上させる。実験により、ScienceWorldで152%、ALFWorldで19.8%の性能向上を達成。マルチターンスパース報酬設定には新たなエントロピー制御が必要であることを示す。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#NLP #UserModeling #LanguageModel #UserBased #Evaluation #Conversation #EMNLP #One-Line Notes Issue Date: 2025-10-16 GPT Summary- SimulatorArenaを導入し、909件の人間-LLM会話を用いて、数学指導と文書作成の2つのタスクにおけるシミュレーターの評価を行う。シミュレーターのメッセージが人間の行動と一致する度合いや、アシスタント評価が人間の判断と整合する度合いを基に評価。条件付けされたシミュレーターが人間の判断と高い相関を示し、実用的な代替手段を提供。最新の18のLLMをベンチマーク。 Comment

元ポスト:

Loading…

マルチターンの会話においてAIと人間との対話(数学のtutoring, 文書の作成支援)を評価する際に、実際の人間はコストがかかりスケールしないのでLLMを人間の代替とし評価ができるか?どのようにすればLLMを人間の振る舞いと整合させられるか?といった話しで、25種類以上のattributeによるユーザプロファイルを用いることが有効だった(人間の評価結果に対して、ユーザプロファイルを用いたLLMシミュレーターがより高い相関を示した)というような話しらしい。




Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #Evaluation #Conversation #Safety #COLM Issue Date: 2025-10-08 GPT Summary- X-Teamingを提案し、無害なインタラクションが有害な結果にエスカレートする過程を探求。協力的なエージェントを用いて、最大98.1%の成功率でマルチターン攻撃を実現。特に、Claude 3.7 Sonnetモデルに対して96.2%の成功率を達成。さらに、30Kの脱獄を含むオープンソースのトレーニングデータセットXGuard-Trainを導入し、LMのマルチターン安全性を向上させる。 Comment

openreview: https://openreview.net/forum?id=gKfj7Jb1kj#discussion

元ポスト:

Loading…




Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #ReinforcementLearning #SyntheticData #COLM #One-Line Notes Issue Date: 2025-10-08 GPT Summary- 段階的強化学習(SWiRL)を提案し、複数のテキスト生成や推論ステップを通じて大規模言語モデルの性能を向上させる手法を紹介。SWiRLは、各アクションに対するサブ軌道を生成し、合成データフィルタリングと強化学習最適化を適用。実験では、GSM8KやHotPotQAなどのタスクでベースラインを上回る精度を達成し、タスク間での一般化も示された。 Comment

openreview: https://openreview.net/forum?id=oN9STRYQVa

元ポスト:

Loading…

従来のRLではテキスト生成を1ステップとして扱うことが多いが、複雑な推論やtool useを伴うタスクにおいては複数ステップでの最適化が必要となる。そのために、多段階の推論ステップのtrajectoryを含むデータを作成し、同データを使いRLすることによって性能が向上したという話な模様。RLをする際には、stepごとにRewardを用意するようである。また、現在のstepの生成を実施する際には過去のstepの情報に基づいて生成する方式のようである。




Paper/Blog Link My Issue
#LanguageModel #ReinforcementLearning #NeurIPS #Routing Issue Date: 2025-10-07 GPT Summary- Router-R1は、複数の大規模言語モデル(LLMs)を効果的にルーティングし集約するための強化学習に基づくフレームワークを提案。内部の熟慮と動的なモデル呼び出しを交互に行い、パフォーマンスとコストのトレードオフを最適化。実験では、一般的なQAベンチマークで強力なベースラインを上回る性能を示し、優れた一般化とコスト管理を実現。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…




Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #AIAgents #SyntheticData #MCP Issue Date: 2025-10-04 GPT Summary- Toucanは、約500の実世界のモデルコンテキストプロトコルから合成された150万の軌跡を含む、最大の公開ツールエージェントデータセットを提供。多様で現実的なタスクを生成し、マルチツールおよびマルチターンのインタラクションに対応。5つのモデルを用いてツール使用クエリを生成し、厳密な検証を通じて高品質な出力を保証。Toucanでファインチューニングされたモデルは、BFCL V3ベンチマークで優れた性能を示し、MCP-Universe Benchでの進展を実現。 Comment

元ポスト:

Loading…

dataset: https://huggingface.co/datasets/Agent-Ark/Toucan-1.5M




Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #Planning #LongSequence #read-later #DeepResearch #memory Issue Date: 2025-09-17 GPT Summary- 本論文では、AIエージェントがウェブ情報を統合してレポートを作成するオープンエンド深層研究(OEDR)に取り組み、WebWeaverという新しい二重エージェントフレームワークを提案。プランナーが証拠取得とアウトライン最適化を交互に行い、ライターが情報を階層的に検索してレポートを構成することで、長いコンテキストの問題を軽減。提案手法は主要なOEDRベンチマークで新たな最先端を確立し、高品質なレポート生成における人間中心のアプローチの重要性を示した。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #ScientificDiscovery #Reproducibility #MCP Issue Date: 2025-09-17 GPT Summary- Paper2Agentは、研究論文をAIエージェントに自動変換するフレームワークで、研究成果の利用や発見を加速します。従来の論文は再利用の障壁を生んでいましたが、Paper2Agentは論文を知識豊富な研究アシスタントとして機能するエージェントに変換します。複数のエージェントを用いて論文と関連コードを分析し、モデルコンテキストプロトコル(MCP)を構築、洗練します。これにより、自然言語を通じて科学的クエリを実行できるエージェントを作成し、実際にゲノム変異やトランスクリプトミクス分析を行うエージェントが元の論文の結果を再現できることを示しました。Paper2Agentは、静的な論文を動的なAIエージェントに変えることで、知識の普及に新たなパラダイムを提供します。 Comment

code: https://github.com/jmiao24/Paper2Agent?tab=readme-ov-file#-demos

論文を論文が提案する技術の機能を提供するMCPサーバに変換し、LLM Agentを通じてユーザはsetup無しに呼びだして利用できるようにする技術な模様。論文から自動的にcodebaseを同定し、コアとなる技術をMCP toolsとしてラップし、反復的なテストを実施してロバストにした上でHF上のAI Agentに提供する、みたいな感じに見える。

image

ポイント解説:

Loading…




Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #ReinforcementLearning #PostTraining #GRPO #DeepResearch Issue Date: 2025-09-15 GPT Summary- DeepDiveは、LLMsにブラウジングツールを追加し、複雑なタスクの解決を目指す深い検索エージェントです。オープンな知識グラフから難解な質問を自動合成し、マルチターン強化学習を適用することで、長期的な推論能力を向上させます。実験により、DeepDive-32Bは複数のベンチマークで優れた性能を示し、ツール呼び出しのスケーリングと並列サンプリングを可能にしました。すべてのデータとコードは公開されています。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#NLP #AIAgents Issue Date: 2025-09-10 GPT Summary- マルチエージェントディベートはAIの推論能力向上に有望だが、時には有害であることが判明。従来の研究が同質のエージェントに焦点を当てる中、モデルの能力の多様性が相互作用に与える影響を探求。実験により、ディベートが精度低下を引き起こす可能性を示し、強力なモデルでも弱いモデルを上回る状況で同様の結果が得られた。エージェントは誤った答えにシフトし、合意を優先する傾向があり、これがディベートの効果を損なうことを示唆している。 Comment

元ポスト:

Loading…

元ポストを読んだ限り、マルチエージェントシステムにdebateをさせても必ずしも性能改善するわけではないよ、という話のようである。
複数のstrong llmの中にweak llmが混在すると、モデルはおべっかによって同意するようにalignmentされる傾向があるので、良い方向に議論が収束するとは限らず、コンセンサスをとるような仕組みではなく、批判をする役目を設けるように設計するなどの工夫が必要、というような話らしい。




Paper/Blog Link My Issue
#NLP #Dataset #DialogueGeneration #Conversation Issue Date: 2025-09-05 Comment

コーパス: https://github.com/nu-dialogue/multi-relational-multi-party-chat-corpus

元ポスト:

Loading…

3人以上のマルチパーティに対応したダイアログコーパスで、話者間の関係性として「初対面」と「家族」に着目し、初対面対話や家族入り対話の2種類の対話を収集したコーパス。




Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #SelfCorrection #EMNLP Issue Date: 2025-08-24 GPT Summary- MAgICoReは、LLMの推論を改善するための新しいアプローチで、問題の難易度に応じて洗練を調整し、過剰な修正を回避する。簡単な問題には粗い集約を、難しい問題には細かい反復的な洗練を適用し、外部の報酬モデルを用いてエラーの特定を向上させる。3つのエージェント(Solver、Reviewer、Refiner)によるマルチエージェントループを採用し、洗練の効果を確保する。Llama-3-8BおよびGPT-3.5で評価した結果、MAgICoReは他の手法を上回る性能を示し、反復が進むにつれて改善を続けることが確認された。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#ComputerVision #NLP #Dataset #LanguageModel #AIAgents #SyntheticData #VisionLanguageModel Issue Date: 2025-08-24 GPT Summary- 本研究では、実世界のツール使用能力を向上させるために、23Kのインスタンスからなる大規模マルチモーダルデータセット「ToolVQA」を提案。ToolVQAは、実際の視覚的コンテキストと多段階推論タスクを特徴とし、ToolEngineを用いて人間のようなツール使用推論をシミュレート。7B LFMを微調整した結果、テストセットで優れたパフォーマンスを示し、GPT-3.5-turboを上回る一般化能力を持つことが確認された。 Comment

人間による小規模なサンプル(イメージシナリオ、ツールセット、クエリ、回答、tool use trajectory)を用いてFoundation Modelに事前知識として与えることで、よりrealisticなscenarioが合成されるようにした上で新たなVQAを4k程度合成。その後10人のアノテータによって高品質なサンプルにのみFilteringすることで作成された、従来よりも実世界の設定に近く、reasoningの複雑さが高いVQAデータセットな模様。

image
image

具体的には、image contextxが与えられた時に、ChatGPT-4oをコントローラーとして、前回のツールとアクションの選択をgivenにし、人間が作成したプールに含まれるサンプルの中からLongest Common Subsequence (LCS) による一致度合いに基づいて人手によるサンプルを選択し、動的にcontextに含めることで多様なで実世界により近しいmulti step tooluseなtrajectoryを合成する、といった手法に見える。pp.4--5に数式や図による直感的な説明がある。なお、LCSを具体的にどのような文字列に対して、どのような前処理をした上で適用しているのかまでは追えていない。
image

元ポスト:

Loading…




Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #ReinforcementLearning #read-later Issue Date: 2025-08-14 GPT Summary- 強化学習(RL)は大規模言語モデルの行動形成に重要だが、脆弱なポリシーを生成し、信頼性を損なう問題がある。本論文では、報酬関数から最適ポリシーへのマッピングの安定性を分析する数学的枠組みを提案し、ポリシーの脆弱性が非一意的な最適アクションに起因することを示す。さらに、多報酬RLにおける安定性が「効果的報酬」によって支配されることを明らかにし、エントロピー正則化が安定性を回復することを証明する。この研究は、ポリシー安定性分析を進展させ、安全で信頼性の高いAIシステム設計に寄与する。 Comment

元ポスト:

Loading…

とても面白そう




Paper/Blog Link My Issue
#NLP #AIAgents #Prompting Issue Date: 2025-07-29 GPT Summary- EDU-Promptingは、教育的批判的思考理論とLLMエージェント設計を結びつけ、批判的でバイアスを意識した説明を生成する新しいマルチエージェントフレームワーク。これにより、AI生成の教育的応答の真実性と論理的妥当性が向上し、既存の教育アプリケーションに統合可能。 Comment

元ポスト:

Loading…

Critiqueを活用したマルチエージェントのようである(具体的なCritiqueの生成方法については読めていない。その辺が重要そう

image

image




Paper/Blog Link My Issue
#Analysis #NLP #AIAgents #NeurIPS #One-Line Notes #Author Thread-Post Issue Date: 2025-04-26 GPT Summary- マルチエージェントLLMシステム(MAS)の性能向上が乏しい中、初の故障分類法MASTを提案。200以上のタスクを通じて14の故障モードを特定し、3つのカテゴリに整理。LLMを活用した評価パイプラインを開発し、故障分析の実用性を示す。特定された故障には複雑な解決策が必要であり、研究への道筋を強調。データセットとLLM注釈者をオープンソース化してMASの進展を促進。 Comment

元ポスト:

Loading…

7つのメジャーなマルチエージェントフレームワークに対して200以上のタスクを実施し、6人の専門家がtraceをアノテーション。14種類の典型的なfailure modeを見つけ、それらを3つにカテゴライズ。これを考慮してマルチエージェントシステムの失敗に関するTaxonomy(MAS)を提案
image

openreview: https://openreview.net/forum?id=fAjbYBmonr&referrer=%5Bthe%20profile%20of%20Matei%20Zaharia%5D(%2Fprofile%3Fid%3D~Matei_Zaharia1)




Paper/Blog Link My Issue
#RecommenderSystems #NeuralNetwork #Survey #MultitaskLearning #MultiModal Issue Date: 2025-03-03 GPT Summary- 深層リコメンダーシステム(DRS)は、個々の嗜好に基づいてオンラインコンテンツをカスタマイズするが、従来の手法は単一のタスクやデータに依存し、ユーザーの多様な嗜好を反映できない。このため、複数のタスクやシナリオ、モダリティを統合する共同モデリング手法の必要性が増している。本論文では、マルチタスク、マルチシナリオ、マルチモーダル、マルチビヘイビアモデリングを通じて共同モデリングを総括し、最新の進展と研究動向を特定・要約し、将来の探求の道を示す。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#NLP #LanguageModel #Library #AIAgents Issue Date: 2025-11-25 GPT Summary- 高性能なオープンソースエージェントシステム「Magentic-One」を提案。マルチエージェントアーキテクチャを用いて計画、進捗追跡、エラー回復を行い、専門エージェントにタスクを指示。GAIA、AssistantBench、WebArenaのベンチマークで競争力のあるパフォーマンスを達成。モジュラー設計により、エージェントの追加や削除が容易で、将来の拡張が可能。オープンソース実装とエージェント評価ツール「AutoGenBench」を提供。詳細は公式サイトで確認可能。 Comment

日本語解説: https://zenn.dev/masuda1112/articles/2024-11-30-magnetic-one

blog: https://www.microsoft.com/en-us/research/articles/magentic-one-a-generalist-multi-agent-system-for-solving-complex-tasks/
code: https://github.com/microsoft/autogen/tree/main/python/packages/autogen-magentic-one




Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #ContextWindow #Blog #NeurIPS #LongHorizon #Initial Impression Notes Issue Date: 2025-01-25 GPT Summary- 長い文脈を処理するために、Chain-of-Agents(CoA)フレームワークを提案。複数のワーカーエージェントが逐次的に情報を集約し、マネージャーエージェントが最終出力を統合。各エージェントに短い文脈を割り当てることで焦点の問題を軽減し、質問応答や要約などのタスクで最大10%の性能向上を実現。 Comment

元ポスト:

Loading…

LLMがどこまでいってもcontext長の制約に直面する問題に対してLLM Agentを組み合わせて対処しました、的な話な模様

ブログ中にアプローチを解説した動画があるのでわかりやすい

Is the experimental code open source?

Thank you for your comment. I tried to find an official open-source implementation provided by the authors, but I was not able to locate one. In fact, I also checked the personal webpage of the first author, but there was no link to any released code.

Is seems that an unofficial implementation is listed under the “Code” tab on the NeurIPS page. I hope this is helpful. Thank you.

NeurIPS link: https://nips.cc/virtual/2024/poster/95563
openreview: https://openreview.net/forum?id=LuCLf4BJsr




Paper/Blog Link My Issue
#NLP #Dataset #AIAgents #SyntheticData #Evaluation Issue Date: 2025-01-03 GPT Summary- MAG-Vというマルチエージェントフレームワークを提案し、顧客クエリを模倣したデータセットを生成してエージェントのパフォーマンスを向上させる。軌跡の検証手法は従来のMLモデルを上回り、GPT-4と同等の性能を示す。多様なタスクエージェントを統一するアプローチを提供。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#InformationRetrieval #NLP #LanguageModel #Supervised-FineTuning (SFT) #RAG(RetrievalAugmentedGeneration) Issue Date: 2024-12-10 GPT Summary- Auto-RAGは、LLMの意思決定能力を活用した自律的な反復検索モデルで、リトリーバーとのマルチターン対話を通じて知識を取得します。推論に基づく意思決定を自律的に合成し、6つのベンチマークで優れた性能を示し、反復回数を質問の難易度に応じて調整可能です。また、プロセスを自然言語で表現し、解釈可能性とユーザー体験を向上させます。 Comment

元ポスト:

Loading…

OpenReview: https://openreview.net/forum?id=jkVQ31GeIA




Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #Evaluation #Factuality #Reasoning #ACL #Reading Reflections Issue Date: 2024-12-02 GPT Summary- 大規模言語モデル(LLMs)のマルチホップクエリに対する事実の想起能力を評価。ショートカットを防ぐため、主語と答えが共に出現するテストクエリを除外した評価データセットSOCRATESを構築。LLMsは特定のクエリにおいてショートカットを利用せずに潜在的な推論能力を示し、国を中間答えとするクエリでは80%の構成可能性を達成する一方、年の想起は5%に低下。潜在的推論能力と明示的推論能力の間に大きなギャップが存在することが明らかに。 Comment

SNLP'24での解説スライド:
https://docs.google.com/presentation/d/1Q_UzOzn0qYX1gq_4FC4YGXK8okd5pwEHaLzVCzp3yWg/edit?usp=drivesdk

この研究を信じるのであれば、LLMはCoT無しではマルチホップ推論を実施することはあまりできていなさそう、という感じだと思うのだがどうなんだろうか。




Paper/Blog Link My Issue
#DocumentSummarization #NeuralNetwork #Document #Supervised #GraphBased #NLP #GraphConvolutionalNetwork #Extractive #CoNLL #KeyPoint Notes Issue Date: 2017-12-31 GPT Summary- 文の関係グラフを用いたニューラルマルチドキュメント要約システムを提案。GCNを適用し、重要な文の特徴を生成後、貪欲なヒューリスティックで文を抽出。DUC 2004の実験で、従来の手法を上回る競争力のある結果を示す。 Comment

Graph Convolutional Network (GCN)を使って、MDSやりましたという話。 既存のニューラルなMDSモデル [Cao et al., 2015, 2017] では、sentence間のrelationが考慮できていなかったが、GCN使って考慮した。 また、MDSの学習データはニューラルなモデルを学習するには小さすぎるが(abstractiveにするのは厳しいという話だと思われる?)、sentenceのsalienceを求める問題に帰着させることで、これを克服。



GCNで用いるAdjacent Matrixとして3種類の方法(cosine similarity, G-Flow, PDG)を試し、議論をしている。PDGが提案手法だが、G-Flowによる重みをPersonalization Features(position, leadか否か等のベーシックな素性)から求まるweightで、よりsentenceのsalienceを求める際にリッチな情報を扱えるように補正している。PDGを用いた場合が(ROUGE的な観点で)最も性能がよかった。



モデルの処理の流れとしては、Document Cluster中の各sentenceのhidden stateをGRUベースなRNNでエンコードし、それをGCNのノードの初期値として利用する。GCNでL回のpropagation後(実験では3回)に得られたノードのhidden stateを、salienceスコア計算に用いるsentence embedding、およびcluster embeddingの生成に用いる。 cluster embeddingは、document clusterをglobalな視点から見て、salienceスコアに反映させるために用いられる。 最終的にこれら2つの情報をlinearなlayerにかけてsoftmaxかけて正規化して、salienceスコアとする。



要約を生成する際はgreedyな方法を用いており、salienceスコアの高いsentenceから要約長に達するまで選択していく。このとき、冗長性を排除するため、candidateとなるsentenceと生成中の要約とのcosine similarityが0.5を超えるものは選択しないといった、よくある操作を行なっている。



DUC01, 02のデータをtraining data, DUC03 をvalidation data, DUC04をtest dataとし、ROUGE1,2で評価。 評価の結果、CLASSY04(DUC04のbest system)やLexRank等のよく使われるベースラインをoutperform。 ただ、regression basedなRegSumにはスコアで勝てないという結果に。 RegSumはwordレベルでsalienceスコアをregressionする手法で、リッチな情報を結構使っているので、これらを提案手法に組み合わせるのは有望な方向性だと議論している。



[Cao+, 2015] Ranking with recursive neural networks and its application to multi-document summarization, Cao+, AAAI'15 [Cao+, 2017] Improving multi-document summarization via text classification, Cao+, AAAI'17



[所感]

・ニューラルなモデルは表現力は高そうだけど、学習データがDUC01と02だけだと、データが足りなくて持ち前の表現力が活かせていないのではないかという気がする。

・冗長性の排除をアドホックにやっているので、モデルにうまく組み込めないかなという印象(distraction機構とか使えばいいのかもしれん)

・ROUGEでしか評価してないけど、実際のoutputはどんな感じなのかちょっと見てみたい。(ハイレベルなシステムだとROUGEスコア上がっても人手評価との相関がないっていう研究成果もあるし。)

・GCN、あまり知らなかったかけど数式追ったらなんとなく分かったと思われる。(元論文読めという話だが)




Paper/Blog Link My Issue
#Single #DocumentSummarization #Document #Unsupervised #GraphBased #NLP #Extractive #SIGIR #KeyPoint Notes Issue Date: 2018-01-01 Comment

要約を生成する際に、情報の”確実性”を考慮したモデルCTSUMを提案しましたという論文(今まではそういう研究はなかった)



```

"However, it seems that Obama will not use the platform to relaunch his stalled drive for Israeli-Palestinian peace"

```

こういう文は、"It seems"とあるように、情報の確実性が低いので要約には入れたくないという気持ち。



FactBankのニュースコーパスから1000 sentenceを抽出し、5-scaleでsentenceの確実性をラベルづけ。

このデータを用いてSVRを学習し、sentenceの確実性をoutputする分類器を構築

affinity-propagationベース(textrank, lexrankのような手法)手法のaffinityの計算(edge間の重みのこと。普通はsentence同士の類似度とかが使われる)を行う際に、情報の確実性のスコアを導入することで確実性を考慮した要約を生成



DUC2007のMDSデータセットで、affinity計算の際に確実性を導入する部分をablationしたモデル(GRSUM)と比較したところ、CTSUMのROUGEスコアが向上した。

また、自動・人手評価により、生成された要約に含まれる情報の確実性を評価したところ、GRSUMをoutperformした

解説スライド: https://www.slideshare.net/akihikowatanabe3110/ctsum-extracting-more-certain-summaries-for-news-articles

SIGIRでは珍しい、要約に関する研究

情報の確実性を考慮するという、いままであまりやられていなかった部分にフォーカスしたのはおもしろい

「アイデアはおもしろいし良い研究だが、affinity weightが変化するということは、裏を返せばdamping factorを変更してもそういう操作はできるので、certaintyを考慮したことに意味があったのかが完全に示せていない。」という意見があり、なるほどと思った。




Paper/Blog Link My Issue
#DocumentSummarization #NLP #Extractive #ACL #Selected Papers/Blogs #interactive #KeyPoint Notes #Hierarchical Issue Date: 2017-12-28 Comment

## 概要

だいぶ前に読んだ。好きな研究。

テキストのsentenceを階層的にクラスタリングすることで、抽象度が高い情報から、関連する具体度の高いsentenceにdrill downしていけるInteractiveな要約を提案している。



## 手法

通常のMDSでのデータセットの規模よりも、実際にMDSを使う際にはさらに大きな規模のデータを扱わなければならないことを指摘し(たとえばNew York Timesで特定のワードでイベントを検索すると数千、数万件の記事がヒットしたりする)そのために必要な事項を検討。

これを実現するために、階層的なクラスタリングベースのアプローチを提案。

提案手法では、テキストのsentenceを階層的にクラスタリングし、下位の層に行くほどより具体的な情報になるようにsentenceを表現。さらに、上位、下位のsentence間にはエッジが張られており、下位に紐付けられたsentence

は上位に紐付けられたsentenceの情報をより具体的に述べたものとなっている。

これを活用することで、drill down型のInteractiveな要約を実現。




Paper/Blog Link My Issue
#DocumentSummarization #NLP #Dataset #QueryBiased #Extractive #ACL #Selected Papers/Blogs #Surface-level Notes Issue Date: 2017-12-28 Comment

(管理人が作成した過去の紹介資料)
[Query-Chain Focused Summarization.pdf](https://github.com/AkihikoWatanabe/paper_notes/files/1590916/Query-Chain.Focused.Summarization.pdf)

上記スライドは私が当時作成した論文紹介スライドです。スライド中のスクショは説明のために論文中のものを引用しています。




Paper/Blog Link My Issue
#PersonalizedDocumentSummarization #DocumentSummarization #InteractivePersonalizedSummarization #NLP #Personalization #EMNLP #Selected Papers/Blogs #interactive #KeyPoint Notes Issue Date: 2017-12-28 Comment

ユーザとシステムがインタラクションしながら個人向けの要約を生成するタスク、InteractivePersonalizedSummarizationを提案。

ユーザはテキスト中のsentenceをクリックすることで、システムに知りたい情報のフィードバックを送ることができる。このとき、ユーザがsentenceをクリックする量はたかがしれているので、click smoothingと呼ばれる手法を提案し、sparseにならないようにしている。click smoothingは、ユーザがクリックしたsentenceに含まれる単語?等を含む別のsentence等も擬似的にclickされたとみなす手法。

4つのイベント(Influenza A, BP Oil Spill, Haiti Earthquake, Jackson Death)に関する、数千記事のニュースストーリーを収集し(10k〜100k程度のsentence)、評価に活用。収集したニュースサイト(BBC, Fox News, Xinhua, MSNBC, CNN, Guardian, ABC, NEwYorkTimes, Reuters, Washington Post)には、各イベントに対する人手で作成されたReference Summaryがあるのでそれを活用。
objectiveな評価としてROUGE、subjectiveな評価として3人のevaluatorに5scaleで要約の良さを評価してもらった。

image

結論としては、ROUGEはGenericなMDSモデルに勝てないが、subjectiveな評価においてベースラインを上回る結果に。ReferenceはGenericに生成されているため、この結果を受けてPersonalizationの必要性を説いている。
image

また、提案手法のモデルにおいて、Genericなモデルの影響を強くする(Personalizedなハイパーパラメータを小さくする)と、ユーザはシステムとあまりインタラクションせずに終わってしまうのに対し、Personalizedな要素を強くすると、よりたくさんクリックをし、結果的にシステムがより多く要約を生成しなおすという結果も示している。

image




Paper/Blog Link My Issue
#PersonalizedDocumentSummarization #DocumentSummarization #NLP #QueryBiased #Personalization #One-Line Notes Issue Date: 2017-12-28 Comment

・unigramの共起だけでなく,bigramの共起も考慮したPLSIモデルを提案し,jointで学習.与えられたクエリやnarrativeなどとsentenceの類似度(latent spaceで計算)を計算し重要文を決定。

・user-modelを使ったPersonalizationはしていない.




Paper/Blog Link My Issue
#PersonalizedDocumentSummarization #DocumentSummarization #NLP #QueryBiased #Personalization #KeyPoint Notes Issue Date: 2017-12-28 Comment

・クエリがあるのが前提

・基本的にPersonalized PageRankの事前分布を求めて,PageRankアルゴリズムを適用する

・文のsalienceを求めるモデルと(パラグラフ,パラグラフ内のポジション,statementなのかdialogなのか,文の長さ),クエリとの関連性をはかるrelevance model(クエリとクエリのnarrativeに含まれる固有表現が文内にどれだけ含まれているか)を用いて,Personalized PageRankの事前分布を決定する

・評価した結果,DUC2007のtop1とtop2のシステムの間のROUGEスコアを獲得




Paper/Blog Link My Issue
#PersonalizedDocumentSummarization #DocumentSummarization #InformationRetrieval #NLP #QueryBiased #Personalization #KeyPoint Notes Issue Date: 2017-12-28 Comment

・検索結果に含まれるページのmulti-document summarizationを行う.クエリとsentenceの単語のoverlap, sentenceの重要度を

 Affinity-Graphから求め,両者を結合しスコアリング.MMR [Paper Note] The Use of MMR, Diversity-Based Reranking for Reordering Documents and Producing Summaries, Carbonell+, SIGIR'98 likeな手法で冗長性を排除し要約を生成する.

・4人のユーザに,実際にシステムを使ってもらい,5-scaleで要約の良さを評価(ベースラインなし).relevance, importance,  

 usefulness, complement of summaryの視点からそれぞれを5-scaleでrating.それぞれのユーザは,各トピックごとのドキュメントに

 全て目を通してもらい,その後に要約を読ませる.




Paper/Blog Link My Issue
#PersonalizedDocumentSummarization #DocumentSummarization #NLP #Search #Personalization #NAACL #KeyPoint Notes Issue Date: 2017-12-28 Comment

・ドキュメントはオフラインでクラスタリングされており,各クラスタごとにmulti-document summarizationを行うことで,

ユーザが最も興味のあるクラスタを同定することに役立てる.あるいは検索結果のページのドキュメントの要約を行う.

要約した結果には,extractした文の元URLなどが付与されている.

・Personalizationをかけるためには,ユーザがドキュメントを選択し,タイトル・ボディなどに定数の重みをかけて,その情報を要約に使う.

・特に評価していない.システムのoutputを示しただけ.




Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Coding #SoftwareEngineering #GPUKernel #Author Thread-Post #AgentHarness Issue Date: 2026-04-15 Comment

元ポスト:

Loading…

自律的に長期間稼働し235件の問題を1回の実行で解くマルチエージェントハーネスに関するレポートで、3週間程度でBlackwell GPUカーネルをゼロから構築・最適化し38%高速化とのこと。




Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #GenerativeAI #Blog #Conversation #Selected Papers/Blogs #Reference Collection Issue Date: 2026-02-01 Comment

元ポスト:

Loading…

興味深い:

Loading…

話したことのないhumanとの会話をあたかもあったことのように話し始める:

Loading…

所見:

Loading…

Andrej Karpathy氏もエージェントを参加させたようである:

Loading…


所見:
Loading…




Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Supervised-FineTuning (SFT) #Proprietary #Japanese #DPO #PostTraining #InstructionFollowingCapability #Medical #RolePlaying Issue Date: 2026-01-29 Comment

関連:
- [Paper Note] Generalizing Verifiable Instruction Following, Valentina Pyatkin+, NeurIPS'25, 2025.07
- JFBench: 実務レベルの日本語指示追従性能を備えた生成AIを目指して, PFN, 2026.01

non-thinkingモデルである点に注意




Paper/Blog Link My Issue
#Article #EfficiencyImprovement #ReinforcementLearning #AIAgents #Blog #Proprietary #Parallelism #ContextEngineering #KeyPoint Notes Issue Date: 2025-10-18 Comment

元ポスト:

Loading…

最大で4 turnの間8つのツールコール(guessingとしては従来モデルは1--2, Sonnet-4.5は1--4)を並列する(3 turnは探索、最後の1 turnをanswerのために使う) parallel tool calls を効果的に実施できるように、on policy RLでマルチターンのRLを実施することで、高速で正確なcontext retrievalを実現した、という感じらしい。

従来のembedding-basedなdense retrieverは速いが正確性に欠け、Agenticなsearchは正確だが遅いという双方の欠点を補う形。

parallel tool callというのは具体的にどういうtrajectoryになるのか…?




Paper/Blog Link My Issue
#Article #Single #DocumentSummarization #Document #Unsupervised #GraphBased #NLP #Extractive #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2018-01-01 Comment

代表的なグラフベースな(Multi) Document Summarization手法。
ほぼ
- [Paper Note] TextRank: Bringing Order into Texts, Mihalcea+, EMNLP'04

と同じ手法。

2種類の手法が提案されている:

* [LexRank] tf-idfスコアでsentenceのbag-of-wordsベクトルを作り、cosine similarityを計算し閾値以上となったsentenceの間にのみedgeを張る(重みは確率的に正規化)。その後べき乗法でPageRank。
* [ContinousLexRank] tf-idfスコアでsentenceのbag-of-wordsベクトルを作り、cosine similarityを用いてAffinity Graphを計算し、PageRankを適用(べき乗法)。

DUC2003, 2004(MDS)で評価。
Centroidベースドな手法をROUGE-1の観点でoutperform。
document clusterの17%をNoisyなデータにした場合も実験しており、Noisyなデータを追加した場合も性能劣化が少ないことも示している。