Singleに関する論文・技術記事メモの一覧

Single

#EfficiencyImprovement #Pocket #NLP #Supervised-FineTuning (SFT) #ReinforcementLearning #AIAgents #LongSequence #read-later
Issue Date: 2025-08-21 [Paper Note] Chain-of-Agents: End-to-End Agent Foundation Models via Multi-Agent Distillation and Agentic RL, Weizhen Li+, arXiv'25 GPT Summary- Chain-of-Agents（CoA）という新しいLLM推論パラダイムを提案し、マルチエージェントシステムの協力を単一モデル内でエンドツーエンドに実現。マルチエージェント蒸留フレームワークを用いて、エージェント的な教師ありファインチューニングを行い、強化学習で能力を向上。得られたエージェント基盤モデル（AFMs）は、ウェブエージェントやコードエージェントの設定で新たな最先端性能を示す。研究成果はオープンソース化され、今後の研究の基盤を提供。 Comment

元ポスト:

Loading…

マルチエージェントのように振る舞うシングルエージェントを、マルチエージェントから得られたtrajectoryを通じて蒸留することめ実現する手法を提案。SFTでcold startに対して訓練した後、verifiable reward (タスクを正常に完了できたか否か)でRLする模様。

データセットも公開されている模様

所見:

Loading…

解説:

Loading…

#MachineLearning #Pocket #ReinforcementLearning #Scaling Laws
Issue Date: 2025-10-13 [Paper Note] Scaling laws for single-agent reinforcement learning, Jacob Hilton+, arXiv'23, 2023.01 GPT Summary- 生成モデルにおけるクロスエントロピー損失の改善がモデルサイズと計算量に依存することが示され、これを強化学習に拡張する際の課題として、平均エピソードリターンの変化が滑らかでないことが挙げられる。これを解決するために、内因的パフォーマンスを導入し、モデルサイズに応じた最小計算量を定義。さまざまな環境で内因的パフォーマンスが冪法則に従ってスケールすることを確認し、最適なモデルサイズも同様にスケールすることを示した。特に、MNISTベースの環境でタスクのホライズン長がこの関係に与える影響を調査した。 Comment

日本語解説: https://www.slideshare.net/slideshow/dlscaling-laws-for-singleagent-reinforcement-learning/255893696

#DocumentSummarization #NeuralNetwork #Document #Supervised #NLP #Abstractive #ACL #Selected Papers/Blogs
Issue Date: 2017-12-31 [Paper Note] Get To The Point: Summarization with Pointer-Generator Networks, See+, ACL'17 Comment

解説スライド： https://www.slideshare.net/akihikowatanabe3110/get-to-the-point-summarization-with-pointergenerator-networks/1

単語の生成と単語のコピーの両方を行えるハイブリッドなニューラル文書要約モデルを提案。

同じ単語の繰り返し現象(repetition)をなくすために、Coverage Mechanismも導入した。

[Paper Note] Incorporating Copying Mechanism in Sequence-to-Sequence Learning, Gu+, ACL'16 などと比較するとシンプルなモデル。

一般的に、PointerGeneratorと呼ばれる。

OpenNMTなどにも実装されている: https://opennmt.net/OpenNMT-py/_modules/onmt/modules/copy_generator.html

（参考）Pointer Generator Networksで要約してみる：

https://qiita.com/knok/items/9a74430b279e522d5b93

#DocumentSummarization #Document #DomainAdaptation #Supervised #NLP #Extractive #PRICAI #KeyPoint Notes Issue Date: 2018-01-01 [Paper Note] Learning from Numerous Untailored Summaries, Kikuchi+, PRICAI'16 GPT Summary- NYTACを利用して監視型要約システムを訓練し、5つのドメイン適応手法を導入。ターゲットデータでファインチューニングした手法が最良の結果を示し、抽出的オラクル要約に基づくインスタンス選択手法が要約性能を向上させることを実証。 Comment

New York Times Annotated Corpus（NYTAC）に含まれる大量の正解要約データを利用する方法を提案。

NYTACには650,000程度の人手で生成された参照要約が付与されているが、このデータを要約の訓練データとして活用した事例はまだ存在しないので、やりましたという話。

具体的には、NYTACに存在する人手要約を全てそのまま使うのではなく、Extracitiveなモデルの学習に効果的な事例をフィルタリングして選別する手法を提案

また、domain-adaptationの技術を応用し、NYTACデータを要約を適用したいtargetのテキストに適応する5つの手法を提案

モデルとしては、基本的にknapsack問題に基づいた要約モデル（Extractive）を用い、学習手法としてはPassive Aggressiveアルゴリズムの構造学習版を利用する。

NYTACのデータを活用する手法として、以下の5つの手法を提案している。

```

1. NytOnly: NYTACのデータのみで学習を行い、target側の情報は用いない

2. Mixture: targetとNYTACの事例をマージして一緒に学習する

3. LinInter: TrgtOnly(targetデータのみで学習した場合）のweightとNytOnlyで学習したweightをlinear-interpolationする。interpolation parameterはdev setから決定

4. Featurize: NytOnlyのoutputをtargetでモデルを学習する際の追加の素性として用いる

5. FineTune: NytOnlyで学習したweightを初期値として、target側のデータでweightをfinetuneする

```

また、NYTACに含まれる参照要約には、生成的なものや、メタ視点から記述された要約など、様々なタイプの要約が存在する。今回学習したいモデルはExtractiveな要約モデルなので、このような要約は学習事例としては適切ではないのでフィルタリングしたい。

そこで、原文書からExtractiveな要約を生成した際のOracle ROUGE-2スコアを各参照要約-原文書対ごとに求め、特定の閾値以下の事例は使用しないように、インスタンスの選択を行うようにする。

DUC2002 (単一文書要約タスク)、RSTDTBlong, RSTDTBshort (Rhetrical Structure Theory Discourse Tree Bankに含まれる400件程度の（確か社説のデータに関する）要約)の3種類のデータで評価。

どちらの評価においても、FineTuneを行い、インスタンスの選択を行うようにした場合が提案手法の中ではもっとも性能がよかった。

DUC2002では、LEADやTextRankなどの手法を有意にoutperformしたが、DUC2002のbest systemには勝てなかった。

しかしながら、RSTDTBlongにおける評価では、RSTの情報などを用いるstate-of-the-artなシステムに、RSTの情報などを用いない提案手法がROUGEスコアでoutperformした。

RSTDTBshortにおける評価では、RSTを用いる手法（平尾さんの手法）には及ばなかったが、それ以外ではbestな性能。これは、RSTDTBshortの場合は要約が指示的な要約であるため、今回学習に用いた要約のデータやモデルは報知的な要約のためのものであるため、あまりうまくいかなかったと考察している。

#DocumentSummarization #NeuralNetwork #Document #Supervised #NLP #Abstractive #ACL #Selected Papers/Blogs Issue Date: 2017-12-31 [Paper Note] Incorporating Copying Mechanism in Sequence-to-Sequence Learning, Gu+, ACL'16 Comment

解説スライド： https://www.slideshare.net/akihikowatanabe3110/incorporating-copying-mechanism-in-sequene-to-sequence-learning

単語のコピーと生成、両方を行えるネットワークを提案。

location based addressingなどによって、生成された単語がsourceに含まれていた場合などに、copy-mode, generate-modeを切り替えるような仕組みになっている。

[Paper Note] Pointing the unknown words, Gulcehre+, ACL'16 と同じタイミングで発表

#DocumentSummarization #NeuralNetwork #Document #Supervised #NLP #Abstractive #IJCAI Issue Date: 2017-12-31 [Paper Note] Distraction-Based Neural Networks for Modeling Documents, Chen+, IJCAI'16 Comment

Neuralなモデルで「文書」の要約を行う研究。

提案手法では、attention-basedなsequence-to-sequenceモデルにdistractionと呼ばれる機構を導入することを提案。

distractionを導入するmotivationは、入力文書中の異なる情報を横断的に参照（一度着目した情報には今後あまり着目しないようなバイアスをかける）したうえで、要約を生成しようというもの。

これにより、生成される要約の冗長性を排除するのが狙い。

以下の3つのアプローチを用いて、distractionを実現

1. [Distraction over input content vectors]

　tステップ目において、decoderのinputとして用いるcontext vectorを

計算する際に、通常の計算に加えて、t-1ステップ目までに使用した

context vectorの情報を活用することで、これまでdecoderのinputとして

利用された情報をあまり重視視しないように、context vectorを生成する。

2. [Distraction over attention weight vectors]

　attentionの重みを計算する際に、過去に高いattentionの重みがついた

encoderのhidden stateについては、あまり重要視しないように

attentionの重みを計算。1と同様に、t-1ステップ目までのattention weightの

historyを保持しておき活用する。

3. [Distration in decoding]

　decodingステップでbeam-searchを行う際のスコア計算に、distraction scoreを導入。distraction

scoreはtステップ目までに用いられたcontext vector、attention

weight、decoderのstateから計算され、これまでと同じような情報に基づいて

単語が生成された場合は、スコアが低くなるようになっている。

CNN、およびLCSTS data (大規模な中国語のheadline generationデータ)で評価した結果、上記3つのdistraction機構を導入した場合に、最も高いROUGEスコアを獲得

特に、原文書が長い場合に、短い場合と比較して、distraction機構を導入すると、

ROUGEスコアの改善幅が大きくなったことが示されている

#DocumentSummarization #NeuralNetwork #Document #Supervised #NLP #Extractive #ACL Issue Date: 2017-12-31 [Paper Note] Neural Summarization by Extracting Sentences and Words, Cheng+, ACL'16 Comment

ExtractiveかつNeuralな単一文書要約ならベースラインとして使用した方がよいかも

#DocumentSummarization #NeuralNetwork #Sentence #Document #NLP #Dataset #Abstractive #EMNLP #Selected Papers/Blogs Issue Date: 2017-12-28 [Paper Note] LCSTS: A large scale chinese short text summarizatino dataset, Hu+, EMNLP'15 Comment

Large Chinese Short Text Summarization (LCSTS) datasetを作成

データセットを作成する際は、Weibo上の特定のorganizationの投稿の特徴を利用。

Weiboにニュースを投稿する際に、投稿の冒頭にニュースのvery short summaryがまず記載され、その後ニュース本文（短め）が記載される特徴があるので、この対をsource-reference対として収集した。

収集する際には、約１００個のルールに基づくフィルタリングやclearning, 抽出等を行なっている。

データセットのpropertyとしては、下記のPartI, II, IIIに分かれている。

PartI: 2.4Mのshort text - summary pair

PartII: PartIからランダムにサンプリングされた10kのpairに対して、5 scaleで要約のrelevanceをratingしたデータ。ただし、各pairにラベルづけをしたevaluatorは1名のみ。

PartIII: 2kのpairに対して（PartI, PartIIとは独立）、3名のevaluatorが5-scaleでrating。evaluatorのratingが一致した1kのpairを抽出したデータ。

RNN-GRUを用いたSummarizerも提案している。

CopyNetなどはLCSTSを使って評価している。他にも使ってる論文あったはず。

ACL'17のPointer Generator Networkでした。

#Multi #DocumentSummarization #Document #Unsupervised #GraphBased #NLP #Extractive #SIGIR Issue Date: 2018-01-01 [Paper Note] CTSUM: Extracting More Certain Summaries for News Articles, Wan+, SIGIR'14 Comment

要約を生成する際に、情報の”確実性”を考慮したモデルCTSUMを提案しましたという論文（今まではそういう研究はなかった）

```

"However, it seems that Obama will not use the platform to relaunch his stalled drive for Israeli-Palestinian peace"

```

こういう文は、"It seems"とあるように、情報の確実性が低いので要約には入れたくないという気持ち。

FactBankのニュースコーパスから1000 sentenceを抽出し、5-scaleでsentenceの確実性をラベルづけ。

このデータを用いてSVRを学習し、sentenceの確実性をoutputする分類器を構築

affinity-propagationベース（textrank, lexrankのような手法）手法のaffinityの計算（edge間の重みのこと。普通はsentence同士の類似度とかが使われる）を行う際に、情報の確実性のスコアを導入することで確実性を考慮した要約を生成

DUC2007のMDSデータセットで、affinity計算の際に確実性を導入する部分をablationしたモデル（GRSUM）と比較したところ、CTSUMのROUGEスコアが向上した。

また、自動・人手評価により、生成された要約に含まれる情報の確実性を評価したところ、GRSUMをoutperformした

解説スライド： https://www.slideshare.net/akihikowatanabe3110/ctsum-extracting-more-certain-summaries-for-news-articles

SIGIRでは珍しい、要約に関する研究

情報の確実性を考慮するという、いままであまりやられていなかった部分にフォーカスしたのはおもしろい

「アイデアはおもしろいし良い研究だが、affinity weightが変化するということは、裏を返せばdamping factorを変更してもそういう操作はできるので、certaintyを考慮したことに意味があったのかが完全に示せていない。」という意見があり、なるほどと思った。

#DocumentSummarization #Document #Supervised #NLP #Abstractive #Extractive #COLING Issue Date: 2018-01-01 [Paper Note] Learning to Generate Coherent Sumamry with Discriminative Hidden Semi-Markov Model, Nishikawa+, COLING'14 Comment

Hidden-semi-markovモデルを用いた単一文書要約手法を提案。

通常のHMMでは一つの隠れ状態に一つのunit（要約の文脈だと文？）が対応するが、hidden-semi-markov(HSMM)モデルでは複数のunitを対応づけることが可能。

隠れ状態に対応するunitを文だと考えると、ある文の複数の亜種を考慮できるようになるため、ナップサック制約を満たしつつ最適な文の亜種を選択するといったことが可能となる。

とかまあ色々難しいことが前半の節に書いてある気がするが、3.3節を見るのがわかりやすいかもしれない。

定式化を見ると、基本的なナップサック問題による要約の定式化に、Coherenceを表すtermと文の変種を考慮するような変数が導入されているだけである。

文のweightや、coherenceのweightは構造学習で学習し、Passive Aggressiveを用いて、loss functionとしてはROUGEを用いている（要はROUGEが高くなるように、outputの要約全体を考慮しながら、weightを学習するということ）。

文の変種としては、各文を文圧縮したものを用意している。

また、動的計画法によるデコーディングのアルゴリズムも提案されている。

構造学習を行う際には大量の教師データが必要となるが、13,000記事分のニュース記事と対応する人手での要約のデータを用いて学習と評価を行なっており、当時これほど大規模なデータで実験した研究はなかった。

ROUGEでの評価の結果、文の変種（文圧縮）を考慮するモデルがベースラインを上回る結果を示したが、LEADとは統計的には有意差なし。しかしながら、人手で生成した要約との完全一致率が提案手法の方が高い。

また、ROUGEの評価だけでなく、linguistic quality（grammaticality, structure/coherenceなど）を人手で評価した結果、ベースラインを有意にoutperform。LEADはgrammaticalityでかなり悪い評価になっていて、これは要約を生成すると部分文が入ってしまうため。

訓練事例数を変化させてROUGEスコアに関するlearning curveを描いた結果、訓練事例の増加に対してROUGEスコアも単調増加しており、まだサチる気配を見せていないので、事例数増加させたらまだ性能よくなりそうという主張もしている。

評価に使用した記事が報道記事だったとするならば、quality的にはLeadに勝ってそうな雰囲気を感じるので、結構すごい気はする（単一文書要約で報道記事においてLEADは最強感あったし）。

ただ、要約の評価においてinformativenessを評価していないので、ROUGEスコア的にはLeadとcomparableでも、実際に生成される要約の情報量として果たしてLEADに勝っているのか興味がある。

#PersonalizedDocumentSummarization #DocumentSummarization #NLP #Search #Personalization #KeyPoint Notes Issue Date: 2017-12-28 [Paper Note] Incremental Personalised Summarisation with Novelty Detection, Campana+, FQAS'09, 2009.10 Comment

https://link.springer.com/content/pdf/10.1007/978-3-642-04957-6_55.pdf

#DocumentSummarization #Document #Supervised #NLP #IJCAI Issue Date: 2017-12-31 [Paper Note] Document Summarization using Conditional Random Fields, Shen+, IJCAI'07 Comment

CRFを用いて単一文書要約の手法を考えましたという話。

気持ちとしては、

```

1. Supervisedなモデルでは、当時は原文書中の各文を独立に2値分類して要約を生成するモデルが多く、sentence間のrelationが考慮できていなかった

2. unsupervisedな手法では、ルールに基づくものなどが多く、汎用的ではなかった

```

といった問題があったので、CRF使ってそれを解決しましたという主張

CRFを使って、要約の問題を系列ラベリング問題に落とすことで、文間の関係性を考慮できるようにし、従来使われてきたルール（素性）をそのままCRFの素性としてぶちこんでしまえば、要約モデル学習できるよねっていうことだろうと思う。

CRFのFeatureとしては、文のpositionや、長さ、文の尤度、thematic wordsなどの基本的なFeatureに加え、LSAやHitsのScoreも利用している。

DUC2001のデータで評価した結果、basicな素性のみを使用した場合、unsupervisedなベースライン(Random, Lead, LSA, HITS)、およびsupervisedなベースライン(NaiveBayes, SVM, Logistic Regression, HMM)をoutperform。

また、LSAやHITSなどのFeatureを追加した場合、basicな素性のみと比べてROUGEスコアが有意に向上し、なおかつ提案手法がbest

結構referされているので、知っておいて損はないかもしれない。

#DocumentSummarization #Document #GraphBased #NLP #Extractive #EMNLP #Selected Papers/Blogs Issue Date: 2018-01-01 [Paper Note] TextRank: Bringing Order into Texts, Mihalcea+, EMNLP'04 Comment

PageRankベースの手法で、キーワード抽出/文書要約を行う手法。

キーワード抽出/文書要約を行う際には、ノードをそれぞれ単語/文で表現する。

ノードで表現されている単語/文のsimilarityを測り、ノード間のedgeの重みとすることでAffinity Graphを構築。

あとは構築したAffinity Graphに対してPageRankを適用して、ノードの重要度を求める。

ノードの重要度に従いGreedyに単語/文を抽出すれば、キーワード抽出/文書要約を行うことができる。

単一文書要約のベースラインとして使える。

gensimに実装がある。

個人的にも実装している：https://github.com/AkihikoWatanabe/textrank

#DocumentSummarization #Document #NLP #Extractive #Selected Papers/Blogs Issue Date: 2018-01-01 [Paper Note] Automatic condensation of electronic publications by sentence selection, Brandow+, Information Processing & Management'95 Comment

報道記事要約において、自動要約システムがLead文に勝つのがhardだということを示した研究

#Article #Multi #DocumentSummarization #Document #Unsupervised #GraphBased #NLP #Extractive #Selected Papers/Blogs Issue Date: 2018-01-01 [Paper Note] LexRank: Graph-based Lexical Centrality as Salience in Text Summarization, Erkan+, Journal of Artificial Intelligence Research, 2004 Comment

代表的なグラフベースな(Multi) Document Summarization手法。

ほぼ [Paper Note] TextRank: Bringing Order into Texts, Mihalcea+, EMNLP'04 と同じ手法。

2種類の手法が提案されている：

* [LexRank] tf-idfスコアでsentenceのbag-of-wordsベクトルを作り、cosine similarityを計算し閾値以上となったsentenceの間にのみedgeを張る（重みは確率的に正規化）。その後べき乗法でPageRank。

* [ContinousLexRank] tf-idfスコアでsentenceのbag-of-wordsベクトルを作り、cosine similarityを用いてAffinity Graphを計算し、PageRankを適用（べき乗法）。

DUC2003, 2004（MDS）で評価。

Centroidベースドな手法をROUGE-1の観点でoutperform。

document clusterの17%をNoisyなデータにした場合も実験しており、Noisyなデータを追加した場合も性能劣化が少ないことも示している。

#Article #PersonalizedDocumentSummarization #DocumentSummarization #NLP #Personalization #KeyPoint Notes Issue Date: 2017-12-28 [Paper Note] Segmentation Based, Personalized Web Page Summarization Model, [Journal of advances in information technology, vol. 3, no.3, 2012], 2012.08 Comment

・Single-document

・ページ内をセグメントに分割し，どのセグメントを要約に含めるか選択する問題

・要約に含めるセグメントは4つのfactor（segment weight, luan’s significance factor, profile keywords, compression ratio）から決まる．基本的には，ページ内の高頻度語（stop-wordは除く）と，profile keywordsを多く含むようなセグメントが要約に含まれるように選択される．図の場合はAlt要素，リンクはアンカテキストなどから単語を取得しセグメントの重要度に反映する．