EMNLP

#EfficiencyImprovement #Pocket #NLP #LanguageModel #Chain-of-Thought #Reasoning #Length #Inference
Issue Date: 2025-08-24 [Paper Note] TokenSkip: Controllable Chain-of-Thought Compression in LLMs, Heming Xia+, EMNLP'25 SummaryChain-of-Thought (CoT)はLLMの推論能力を向上させるが、長いCoT出力は推論遅延を増加させる。これに対処するため、重要度の低いトークンを選択的にスキップするTokenSkipを提案。実験により、TokenSkipはCoTトークンの使用を削減しつつ推論性能を維持することを示した。特に、Qwen2.5-14B-InstructでGSM8Kにおいて推論トークンを40%削減し、性能低下は0.4%未満であった。 Comment元ポスト:https://x.com/hemingkx/status/1891873475545137245?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q #Multi #Pocket #NLP #LanguageModel #LLMAgent #SelfCorrection
Issue Date: 2025-08-24 [Paper Note] MAgICoRe: Multi-Agent, Iterative, Coarse-to-Fine Refinement for Reasoning, Justin Chih-Yao Chen+, EMNLP'25 SummaryMAgICoReは、LLMの推論を改善するための新しいアプローチで、問題の難易度に応じて洗練を調整し、過剰な修正を回避する。簡単な問題には粗い集約を、難しい問題には細かい反復的な洗練を適用し、外部の報酬モデルを用いてエラーの特定を向上させる。3つのエージェント(Solver、Reviewer、Refiner)によるマルチエージェントループを採用し、洗練の効果を確保する。Llama-3-8BおよびGPT-3.5で評価した結果、MAgICoReは他の手法を上回る性能を示し、反復が進むにつれて改善を続けることが確認された。 Comment元ポスト:https://x.com/cyjustinchen/status/1958957907778969648?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q #NeuralNetwork #EfficiencyImprovement #Pocket #NLP #AutomaticSpeechRecognition(ASR) #Encoder-Decoder
Issue Date: 2025-08-22 [Paper Note] LiteASR: Efficient Automatic Speech Recognition with Low-Rank Approximation, Keisuke Kamahori+, EMNLP'25 SummaryLiteASRは、現代の自動音声認識モデルのエンコーダを低ランク圧縮する手法で、推論コストを大幅に削減しつつ転写精度を維持します。主成分分析を用いて低ランク行列の乗算を近似し、自己注意機構を最適化することで、Whisper large-v3のエンコーダサイズを50%以上圧縮し、Whisper mediumと同等のサイズでより良い転写精度を実現しました。 Comment元ポスト:https://x.com/keisukekamahori/status/1958695752810864754?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q現代のASRモデルはencoderが計算効率の上でボトルネックとなっていたが、Forward Passにおける activatrion Y を PCA (式2, 3)に基づいて2つの低ランク行列の積(とバイアス項の加算; 式5)によって近似し計算効率を大幅に向上させた、という話な模様。weightを低ランクに写像するV_kとバイアス項のY_M(データセット全体に対するactivation Yの平均)はcalibrfationデータによって事前に計算可能とのこと。また、PCAのrank kがattention headの次元数より小さい場合、self-attentionの計算もより(QWKへ写像するWを低ランク行列で近似することで)効率的な手法を採用でき、そちらについても提案されている模様。(ざっくりしか読めていないので誤りがあるかもしれない。)

Image

Image

#Pocket #NLP #LanguageModel #LLMAgent #SelfImprovement Issue Date: 2025-08-22 [Paper Note] WebEvolver: Enhancing Web Agent Self-Improvement with Coevolving World Model, Tianqing Fang+, arXiv'25 Summary自己改善エージェントのために、共進化するワールドモデルLLMを導入する新しいフレームワークを提案。これにより、エージェントのポリシーを洗練する自己指導型トレーニングデータを生成し、行動選択を導く先読みシミュレーションを実現。実験により、既存の自己進化エージェントに対して10%のパフォーマンス向上を示し、持続的な適応性を促進することを目指す。 Comment元ポスト:https://x.com/wyu_nd/status/1958632621820584203?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q #Pocket Issue Date: 2025-08-22 [Paper Note] Are Checklists Really Useful for Automatic Evaluation of Generative Tasks?, Momoka Furuhashi+, EMNLP'25 Summary生成タスクの自動評価における曖昧な基準の課題を解決するため、チェックリストの使用方法を検討。6つの生成方法と8つのモデルサイズで評価し、選択的チェックリストがペアワイズ評価でパフォーマンスを改善する傾向があることを発見。ただし、直接スコアリングでは一貫性がない。人間の評価基準との相関が低いチェックリスト項目も存在し、評価基準の明確化が必要であることを示唆。 Comment元ポスト:https://x.com/tohoku_nlp_mmk/status/1958717497454002557?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Qpj page:https://momo0817.github.io/checklist-effectiveness-study-github.io/ #Pocket Issue Date: 2025-08-22 [Paper Note] MAC-Tuning: LLM Multi-Compositional Problem Reasoning with Enhanced Knowledge Boundary Awareness, Junsheng Huang+, EMNLP'25 SummaryLLMのハルシネーション問題に対処するため、複数の問題に同時に対応する新手法MAC-Tuningを提案。回答予測と信頼度推定を分離して学習し、実験で平均精度が最大25%向上したことを示す。 Comment元ポスト:https://x.com/may_f1_/status/1958362321337950709?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q #Pocket Issue Date: 2025-08-21 [Paper Note] Paths Not Taken: Understanding and Mending the Multilingual Factual Recall Pipeline, Meng Lu+, EMNLP'25 Summary多言語LLMsは英語での事実再呼出しに優れていますが、他言語ではパフォーマンスが低下します。原因として、英語中心のメカニズムの不十分な活用と再翻訳時の誤りを特定。これに対処するため、言語に依存しない二つの介入を導入し、再呼出し精度を35%以上向上させました。この研究は、メカニズムの理解がLLMsの多言語能力を引き出す手助けとなることを示しています。 Comment元ポスト:https://x.com/ruochenz_/status/1958253947111506283?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q #Pocket #Findings Issue Date: 2025-08-21 [Paper Note] Evaluating Step-by-step Reasoning Traces: A Survey, Jinu Lee+, EMNLP'25 Findings Summaryステップバイステップの推論はLLMの能力向上に寄与するが、評価手法は一貫性に欠ける。本研究では、推論評価の包括的な概要と、事実性、有効性、一貫性、実用性の4カテゴリからなる評価基準の分類法を提案。これに基づき、評価者の実装や最近の発見をレビューし、今後の研究の方向性を示す。 Comment元ポスト:https://x.com/jinulee_v/status/1958268008964796904?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q #ComputerVision #Pocket #NLP #Dataset #MulltiModal #Reasoning #PostTraining #VisionLanguageModel Issue Date: 2025-08-21 [Paper Note] VisualWebInstruct: Scaling up Multimodal Instruction Data through Web Search, Yiming Jia+, EMNLP'25 Summary本研究では、推論に焦点を当てたマルチモーダルデータセットの不足に対処するため、VisualWebInstructという新しいアプローチを提案。30,000のシード画像からGoogle画像検索を用いて700K以上のユニークなURLを収集し、約900KのQAペアを構築。ファインチューニングされたモデルは、Llava-OVで10-20ポイント、MAmmoTH-VLで5ポイントの性能向上を示し、最良モデルMAmmoTH-VL2は複数のベンチマークで最先端の性能を達成。これにより、Vision-Language Modelsの推論能力向上に寄与することが示された。 Comment元ポスト:https://x.com/wenhuchen/status/1958317145349075446?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q #Pocket #NLP #LanguageModel #LLMAgent #ScientificDiscovery #Findings Issue Date: 2025-08-21 [Paper Note] Agent Laboratory: Using LLM Agents as Research Assistants, Samuel Schmidgall+, EMNLP'25 Findings SummaryAgent Laboratoryは、全自動のLLMベースのフレームワークで、研究アイデアから文献レビュー、実験、報告書作成までのプロセスを完了し、質の高い研究成果を生成します。人間のフィードバックを各段階で取り入れることで、研究の質を向上させ、研究費用を84%削減。最先端の機械学習コードを生成し、科学的発見の加速を目指します。 Comment元ポスト:https://x.com/srschmidgall/status/1958272229223067789?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Qpj page:https://agentlaboratory.github.io #Analysis #Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) #read-later Issue Date: 2025-06-18 [Paper Note] Massive Supervised Fine-tuning Experiments Reveal How Data, Layer, and Training Factors Shape LLM Alignment Quality, Yuto Harada+, EMNLP'25 SummarySFTはLLMを人間の指示に整合させる重要なプロセスであり、1,000以上のSFTモデルを生成し、データセットの特性と層ごとの変更を調査。訓練タスクの相乗効果やモデル固有の戦略の重要性を明らかにし、困惑度がSFTの効果を予測することを示した。中間層の重みの変化がパフォーマンス向上と強く相関し、研究を加速させるためにモデルと結果を公開予定。 Comment元ポスト:https://x.com/odashi_t/status/1935191113981403359?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QNLP'25:https://www.anlp.jp/proceedings/annual_meeting/2025/pdf_dir/C10-6.pdf #EfficiencyImprovement #Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) Issue Date: 2025-06-05 [Paper Note] Unleashing the Reasoning Potential of Pre-trained LLMs by Critique Fine-Tuning on One Problem, Yubo Wang+, EMNLP'25 Summary本研究では、強力な大規模言語モデル(LLM)の推論能力を引き出すために、批評微調整(CFT)が効果的であることを示します。CFTは、単一の問題に対する多様な解を収集し、教師LLMによる批評データを構築する手法です。QwenおよびLlamaモデルを微調整した結果、数学や論理推論のベンチマークで顕著な性能向上を観察しました。特に、わずか5時間のトレーニングで、Qwen-Math-7B-CFTは他の手法と同等以上の成果を上げました。CFTは計算効率が高く、現代のLLMの推論能力を引き出すためのシンプルなアプローチであることが示されました。 Comment元ポスト:https://x.com/wenhuchen/status/1930447298527670662?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q関連:
・1832
・1938参考:https://x.com/weiliu99/status/1930826904522875309?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q
#Pocket Issue Date: 2025-08-21 [Paper Note] Annotation-Efficient Preference Optimization for Language Model Alignment, Yuu Jinnai+, EMNLP'24 SummaryAEPO(Annotation-Efficient Preference Optimization)は、限られたアノテーション予算を活用し、質と多様性を最大化する応答のサブセットに対して好みをアノテーションする手法。これにより、従来のDPOモデルよりも優れた性能を発揮することを示した。 Comment元ポスト:https://x.com/dindin92/status/1958390598282748101?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q #Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) #PEFT(Adaptor/LoRA) #MoE(Mixture-of-Experts) Issue Date: 2025-08-06 [Paper Note] Let the Expert Stick to His Last: Expert-Specialized Fine-Tuning for Sparse Architectural Large Language Models, Zihan Wang+, EMNLP'24 Summary本研究では、Mixture-of-Experts(MoE)アーキテクチャを持つ大規模言語モデル(LLMs)に対するパラメータ効率の良いファインチューニング(PEFT)手法を提案。主な内容は、(1) タスクごとの専門家の活性化分布の集中度の調査、(2) Expert-Specialized Fine-Tuning(ESFT)の提案とその効果、(3) MoEアーキテクチャの専門家特化型ファインチューニングへの影響の分析。実験により、ESFTがチューニング効率を向上させ、フルパラメータファインチューニングに匹敵またはそれを上回る性能を示すことが確認された。 Comment元ポスト:https://x.com/wzihanw/status/1952965138845450413?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QMoEアーキテクチャを持つLLMにおいて、finetuningを実施したいタスクに関連する専門家を特定し、そのほかのパラメータをfreezeした上で当該専門家のみをtrainableとすることで、効率的にfinetuningを実施する手法
image

専門家を見つける際には専門家ごとにfinetuningしたいタスクに対するrelevance scoreを計算する。そのために、2つの手法が提案されており、training dataからデータをサンプリングし
・全てのサンプリングしたデータの各トークンごとのMoE Routerのgateの値の平均値をrelevant scoreとする方法
・全てのサンプリングしたデータの各トークンごとに選択された専門家の割合
の2種類でスコアを求める。閾値pを決定し、閾値以上のスコアを持つ専門家をtrainableとする。

LoRAよりもmath, codeなどの他ドメインのタスク性能を劣化させず、Finetuning対象のタスクでFFTと同等の性能を達成。
image

LoRAと同様にFFTと比較し学習時間は短縮され、学習した専門家の重みを保持するだけで良いのでストレージも節約できる。
image
#Pretraining #Pocket #NLP #LanguageModel #InstructionTuning Issue Date: 2025-06-25 [Paper Note] Instruction Pre-Training: Language Models are Supervised Multitask Learners, Daixuan Cheng+, EMNLP'24 Summary無監督のマルチタスク事前学習に加え、監視されたマルチタスク学習の可能性を探るために、Instruction Pre-Trainingフレームワークを提案。指示応答ペアを生成し、2億のペアを合成して実験を行い、事前学習モデルの性能を向上させることを確認。Instruction Pre-TrainingはLlama3-8BをLlama3-70Bと同等以上の性能に引き上げる。モデルやデータは公開されている。 #Pocket #NLP #LanguageModel #Alignment #InstructionTuning Issue Date: 2025-05-11 ORPO: Monolithic Preference Optimization without Reference Model, Jiwoo Hong+, EMNLP'24 Summary本論文では、好みの整合性における監視付きファインチューニング(SFT)の重要性を強調し、わずかなペナルティで好みに整合したSFTが可能であることを示します。さらに、追加の整合性フェーズを必要としない新しいオッズ比最適化アルゴリズムORPOを提案し、これを用いて複数の言語モデルをファインチューニングした結果、最先端のモデルを上回る性能を達成しました。 Commentざっくり言うとinstruction tuningとalignmentを同時にできる手法らしいがまだ理解できていない #Pocket #NLP #Dataset #LanguageModel #KnowledgeEditing #read-later Issue Date: 2025-05-07 Editing Large Language Models: Problems, Methods, and Opportunities, Yunzhi Yao+, EMNLP'24 SummaryLLMの編集技術の進展を探求し、特定のドメインでの効率的な動作変更と他の入力への影響を最小限に抑える方法を論じる。モデル編集のタスク定義や課題を包括的にまとめ、先進的な手法の実証分析を行う。また、新しいベンチマークデータセットを構築し、評価の向上と持続的な問題の特定を目指す。最終的に、編集技術の効果に関する洞察を提供し、適切な方法選択を支援する。コードとデータセットは公開されている。 #MachineLearning #NLP #Transformer Issue Date: 2024-01-16 Transformers are Multi-State RNNs, Matanel Oren+, N_A, EMNLP'24 Summary本研究では、トランスフォーマーのデコーダーは無限マルチステートRNNとして概念化できることを示し、有限のマルチステートRNNに変換することも可能であることを示します。さらに、新しいキャッシュ圧縮ポリシーであるTOVAを導入し、他のポリシーよりも優れた性能を示すことを実験結果で示しました。TOVAは元のキャッシュサイズの1/8しか使用せず、トランスフォーマーデコーダーLLMが実際にはRNNとして振る舞うことが多いことを示しています。 CommentTransformerはRNNとは異なる概念、特に全てのトークンの情報に直接アクセスできるということで区別されてきたが、よくよく考えてみると、Transformer Decoderは、RNNのhidden_states h を(hは1つのstateをベクトルで表している)、multi-stateを表す matrix H (t個のstateを表すmatrix; tは現在の着目しているトークンまでのsequenceの長さ)で置き換えたもの Multi-State-RNN (MSRNN) と解釈できる、という話。
また、window attentionなどのattentionの計算で考慮するKV cacheのスパンを(メモリを節約するために)制限する圧縮手法は、先ほどのMSRNNは全トークンのstate (KV Cache)にアクセスできる(= Unbounded)と考えると、アクセスできるトークンのstateが k (<t) となるため、BoundedなMSRNNとみなせる。
したがって、現在のLLMはTransformer Decoderを積み上げたものであるものであり、原理上はinference/training時に全てのトークンを考慮できるため、原理上はUnboundedなMSRNNとみなせる。一方、ここにメモリの制約が加わるとKV Cacheを圧縮しなければならないため、実用上はBoundedなMSRNNとなっている。

Image

実際に式で表すと以下のようにRNNとTransformerは対応づけられる。
Image
Image

このことを考慮して、本研究ではTOVAと呼ばれる新しいKV Cacheの圧縮手法を提案している。非常にシンプルな手法で、KV Cacheがメモリの上限に到達したときに、その際にattention scoreが最も小さいトークンのKV Cacheを捨てる、という手法である。
Image

TOVAをwindow attentionなどのベースラインとオラクルとしてfull attentionと比較。タスクは Language Modeling(PG-19データにおけるPerplexity)、Language Understanding (long contextからrelevantな情報を拾う必要があるQA)、Story Generation(長文のストーリーを書かせてGPT4によってpair-wiseで生成されたストーリーの品質をLLM-as-a-Judgeさせる)を利用。既存のKV Cache圧縮手法よりも効率的にKV Cacheを圧縮でき、4096 context windowの場合は、512程度でfull attentionと近い性能を示すことが示された。これにより、高いメモリ効率とスループットを実現できる。ここで、グラフのx軸のmultistateはTOVAにおいてはmatrix Hで保持するstate数に相当し、window attentionでは、window sizeに相当する。
Image

Image
#NLP #LanguageModel #QuestionAnswering #Prompting Issue Date: 2023-10-30 Re-Reading Improves Reasoning in Language Models, Xiaohan Xu+, N_A, EMNLP'24 Summary大規模言語モデル(LLMs)において、推論は重要で困難な問題です。従来のアプローチでは、プロンプティング戦略を開発することに焦点が当てられてきましたが、双方向の相互作用や質問の重要性には注意が払われていませんでした。この問題に対処するため、質問の再読という新しいプロンプティング戦略を提案します。再読は、質問情報を再訪することで、LLMsの推論能力を向上させることができます。実験結果は、この手法の効果と汎用性を示しており、LLMsの領域でのその有用性を強調しています。 Comment問題文を2,3回promptで繰り返すだけで、数学のベンチマークとCommonsenseのベンチマークの性能が向上したという非常に簡単なPrompting。self-consistencyなどの他のPromptingとの併用も可能。
なぜ性能が向上するかというと、
1. LLMはAuporegressiveなモデルであり、bidirectionalなモデルではない。このため、forwardパスのみでは読解力に限界がある。(たとえば人間はしばしばテキストを読み返したりする)。そこで、一度目の読解で概要を理解し、二度目の読解でsalience partを読み込むといったような挙動を実現することで、より問題文に対するComprehensionが向上する。
2. LLMはしばしばpromptの重要な箇所の読解を欠落させてしまう。たとえば、793 では、promptのmiddle partを軽視する傾向があることが示されている。このような現象も軽減できると考えられる。

image
image
image
問題文の繰り返しは、3回までは性能が向上する。
imageこのpromptingは複雑な問題であればあるほど効果があると推察される。
#Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) #SelfImprovement Issue Date: 2025-07-22 [Paper Note] Large Language Models Can Self-Improve, Jiaxin Huang+, EMNLP'23 SummaryLLMはラベルのないデータセットで自己改善可能であることを示し、Chain-of-Thoughtプロンプティングと自己一貫性を利用して高信頼度の回答を生成。これにより、540BパラメータのLLMの推論能力を向上させ、最先端のパフォーマンスを達成。ファインチューニングが自己改善に重要であることも確認。 Commentopenreview: https://openreview.net/forum?id=uuUQraD4XX¬eId=PWDEpZtn6PImage #NaturalLanguageGeneration #Metrics #Pocket #NLP #Evaluation #Finetuning Issue Date: 2024-05-28 T5Score: Discriminative Fine-tuning of Generative Evaluation Metrics, Yiwei Qin+, N_A, EMNLP-Findings'23 Summary埋め込みベースのテキスト生成の評価には、教師付きの識別メトリクスと生成メトリクスの2つのパラダイムがあります。本研究では、教師付きと教師なしの信号を組み合わせたフレームワークを提案し、mT5をバックボーンとしてT5Scoreメトリクスを訓練しました。T5Scoreは他の既存のメトリクスと包括的な実証的比較を行い、セグメントレベルで最良のパフォーマンスを示しました。また、コードとモデルはGitHubで公開されています。 CommentOpenReview: https://openreview.net/forum?id=2jibzAXJzH¬eId=rgNMHmjShZ #NaturalLanguageGeneration #Pocket #NLP #LanguageModel #Explanation #Supervised-FineTuning (SFT) #Evaluation #PostTraining Issue Date: 2024-01-25 INSTRUCTSCORE: Explainable Text Generation Evaluation with Finegrained Feedback, Wenda Xu+, N_A, EMNLP'23 Summary自動的な言語生成の品質評価には説明可能なメトリクスが必要であるが、既存のメトリクスはその判定を説明したり欠陥とスコアを関連付けることができない。そこで、InstructScoreという新しいメトリクスを提案し、人間の指示とGPT-4の知識を活用してテキストの評価と診断レポートを生成する。さまざまな生成タスクでInstructScoreを評価し、他のメトリクスを上回る性能を示した。驚くべきことに、InstructScoreは人間の評価データなしで最先端のメトリクスと同等の性能を達成する。 Comment伝統的なNLGの性能指標の解釈性が低いことを主張する研究image #Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) #In-ContextLearning #PostTraining Issue Date: 2023-05-21 Symbol tuning improves in-context learning in language models, Jerry Wei+, N_A, EMNLP'23 Summary本研究では、自然言語ラベルをシンボルに置き換えて言語モデルを微調整する「symbol tuning」を提案し、未知のタスクや不明確なプロンプトに対して堅牢な性能を示すことを示した。また、symbol tuningによりアルゴリズム的推論タスクでのパフォーマンス向上が見られ、以前の意味的知識を上書きする能力が向上していることが示された。Flan-PaLMモデルを使用して実験が行われ、最大540Bパラメータまで利用された。 Comment概要やOpenReviewの内容をざっくりとしか読めていないが、自然言語のラベルをランダムな文字列にしたり、instructionをあえて除外してモデルをFinetuningすることで、promptに対するsensitivityや元々モデルが持っているラベルと矛盾した意味をin context learningで上書きできるということは、学習データに含まれるテキストを調整することで、正則化の役割を果たしていると考えられる。つまり、ラベルそのものに自然言語としての意味を含ませないことや、instructionを無くすことで、(モデルが表層的なラベルの意味や指示からではなく)、より実際のICLで利用されるExaplarからタスクを推論するように学習されるのだと思われる。
imageOpenReview:https://openreview.net/forum?id=vOX7Dfwo3v
#Pocket #Dataset #LanguageModel #Evaluation #Ambiguity Issue Date: 2023-04-28 We're Afraid Language Models Aren't Modeling Ambiguity, Alisa Liu+, EMNLP'23 Summary曖昧さは自然言語の重要な特徴であり、言語モデル(LM)が対話や執筆支援において成功するためには、曖昧な言語を扱うことが不可欠です。本研究では、曖昧さの影響を評価するために、1,645の例からなるベンチマーク「AmbiEnt」を収集し、事前学習済みLMの評価を行いました。特にGPT-4の曖昧さ解消の正答率は32%と低く、曖昧さの解消が難しいことが示されました。また、多ラベルのNLIモデルが曖昧さによる誤解を特定できることを示し、NLPにおける曖昧さの重要性を再認識する必要性を提唱しています。 CommentLLMが曖昧性をどれだけ認知できるかを評価した初めての研究。
言語学者がアノテーションした1,645サンプルの様々な曖昧さを含んだベンチマークデータを利用。
GPT4は32%正解した。
またNLIデータでfinetuningしたモデルでは72.5%のmacroF1値を達成。
応用先として、誤解を招く可能性のある政治的主張に対してアラートをあげることなどを挙げている。image
#Analysis #Pocket #NLP #Transformer #Admin'sPick #FactualKnowledge Issue Date: 2025-07-04 [Paper Note] Transformer Feed-Forward Layers Are Key-Value Memories, Mor Geva+, EMNLP'21 Summaryフィードフォワード層はトランスフォーマーモデルの大部分を占めるが、その役割は未探求。研究により、フィードフォワード層がキー・バリュー・メモリとして機能し、トレーニング例のテキストパターンと相関することを示す。実験で、下層は浅いパターン、上層は意味的なパターンを学習し、バリューが出力分布を誘導することが確認された。最終的に、フィードフォワード層の出力はメモリの合成であり、残差接続を通じて洗練される。 Comment日本語解説(p.5より): https://speakerdeck.com/kogoro/knowledge-neurons-in-pretrained-transformers-for-snlp2022?slide=5 #Pocket #NLP #LanguageModel #KnowledgeEditing Issue Date: 2025-06-18 [Paper Note] Editing Factual Knowledge in Language Models, Nicola De Cao+, EMNLP'21 SummaryKnowledgeEditorは、事前学習された言語モデルの知識を編集し、再学習なしで誤った事実や予測を修正する手法です。制約最適化を用いてハイパーネットワークを訓練し、他の知識に影響を与えずに事実を修正します。BERTとBARTのモデルでその有効性を示し、特定のクエリに基づく予測変更がパラフレーズにも一貫して影響を与えることを確認しました。ハイパーネットワークは、知識操作に必要なコンポーネントを特定する「プローブ」として機能します。 #Pocket #Findings Issue Date: 2025-08-16 [Paper Note] Query-Key Normalization for Transformers, Alex Henry+, EMNLP'20 Findings Summary低リソース言語翻訳において、QKNormという新しい正規化手法を提案。これは、注意メカニズムを修正し、ソフトマックス関数の飽和耐性を向上させつつ表現力を維持。具体的には、クエリとキー行列に対して$\ell_2$正規化を適用し、学習可能なパラメータでスケールアップ。TED TalksコーパスとIWSLT'15の低リソース翻訳ペアで平均0.928 BLEUの改善を達成。 #NaturalLanguageGeneration #Pocket #NLP #Dataset #Evaluation #Composition #Findings #CommonsenseReasoning Issue Date: 2025-07-31 [Paper Note] CommonGen: A Constrained Text Generation Challenge for Generative Commonsense Reasoning, Bill Yuchen Lin+, EMNLP'20 Findings Summary生成的常識推論をテストするためのタスクCommonGenを提案し、35,000の概念セットに基づく79,000の常識的記述を含むデータセットを構築。タスクは、与えられた概念を用いて一貫した文を生成することを求め、関係推論と構成的一般化能力が必要。実験では、最先端モデルと人間のパフォーマンスに大きなギャップがあることが示され、生成的常識推論能力がCommonsenseQAなどの下流タスクに転送可能であることも確認。 Commentベンチマークの概要。複数のconceptが与えられた時に、それらconceptを利用した常識的なテキストを生成するベンチマーク。concept間の関係性を常識的な知識から推論し、Unseenなconceptの組み合わせでも意味を構成可能な汎化性能が求められる。
imagePJ page:https://inklab.usc.edu/CommonGen/
#MachineTranslation #Metrics #Pocket #NLP #Evaluation #Admin'sPick Issue Date: 2024-05-26 COMET: A Neural Framework for MT Evaluation, Ricardo Rei+, N_A, EMNLP'20 SummaryCOMETは、多言語機械翻訳評価モデルを訓練するためのニューラルフレームワークであり、人間の判断との新しい最先端の相関レベルを達成します。クロスリンガル事前学習言語モデリングの進展を活用し、高度に多言語対応かつ適応可能なMT評価モデルを実現します。WMT 2019 Metrics shared taskで新たな最先端のパフォーマンスを達成し、高性能システムに対する堅牢性を示しています。 CommentBetter/Worseなhypothesisを利用してpair-wiseにランキング関数を学習する
![Image](https://github.com/user-attachments/assets/a1fd6f36-48e8-44fc-8fcb-0900a51759b3)

![Image](https://github.com/user-attachments/assets/19ad7a57-7de3-4255-afde-4a1fde41587d)

Inference時は単一のhypothesisしかinputされないので、sourceとreferenceに対してそれぞれhypothesisの距離をはかり、その調和平均でスコアリングする

![Image](https://github.com/user-attachments/assets/21642c70-a7fd-4c0e-8678-6125fdbfefce)ACL2024, EMNLP2024あたりのMT研究のmetricをざーっと見る限り、BLEU/COMETの双方で評価する研究が多そう
#NeuralNetwork #NaturalLanguageGeneration #NLP #DataToTextGeneration Issue Date: 2021-10-08 Table-to-Text Generation with Effective Hierarchical Encoder on Three Dimensions (Row, Column and Time), Gong+, Harbin Institute of Technology, EMNLP'19 Comment概要

既存研究では、tableをレコードの集合, あるいはlong sequenceとしてencodeしてきたが



1. other (column) dimensionの情報が失われてしまう (?)

2. table cellは時間によって変化するtime-series data



という特徴がある。

たとえば、ある選手の成績について言及する際に、その試合について着目するだけでなくて「直近3試合で二回目のダブルダブルです」というように直近の試合も考慮して言及することがあり、table cellの time dimensionについても着目しなければならず、これらはこれまでのモデルで実現できない。

そこで、この研究ではtime dimensionについても考慮し生成する手法を提案。



モデル概要

image



全体としては、Row Dimension Encoder, Column Dimension Encoder, Time Dimension Encoderによって構成されており、self-attentionを利用して、テーブルの各セルごとに Row-Dimension, Column-Dimension, Time-DimensionのRepresentationを獲得する。イメージとしては、



・Row Dimension Encoderによって、自身のセルと同じ行に含まれるセルとの関連度を考慮した表現

・Column Dimension Encoderによって、自身のセルと同じ列に含まれるセルとの関連度を考慮した表現

・Time Dimension Encoderによって、過去の時系列のセルとの関連度を考慮した表現



をそれぞれ獲得するイメージ。各Dimension Encoderでやっていることは、Puduppully (394) らのContent Selection Gate節におけるattention vector r_{att}の取得方法と同様のもの(だと思われる)。



獲得したそれぞれのdimensionの表現を用いて、まずそれらをconcatし1 layer MLPで写像することで得られるgeneral representationを取得する。その後、general representationと各dimensionの表現を同様に1 layer MLPでスコアリングすることで、各dimensionの表現の重みを求め、その重みで各representationを線形結合することで、セルの表現を獲得する。generalなrepresentationと各dimensionの表現の関連性によって重みを求めることで、より着目すべきdimensionを考慮した上で、セルの表現を獲得できるイメージなのだろうか。

その後、各セルの表現を行方向に対してMeanPoolingを施しrow-levelの表現を取得。獲得したrow-levelの表現に対し、Puduppully (394) らのContent Selection Gate g を適用する(これをどうやっているかがわからない)。



最終的に求めたrow-levelの表現とcell-levelの表現に対して、デコーダのhidden stateを利用してDual Attentionを行い、row-levelの表現からどの行に着目すべきか決めた後、その行の中からどのセルに着目するか決める、といったイメージで各セルの重みを求める。

論文中にはここまでしか書かれていないが、求めた各セルの重みでセルのrepresentationを重み付けして足し合わせ、最終的にそこから単語をpredictionするのだろうか・・・?よくわからない。image



RG, CS, CO, BLEUスコア、全てにおいてBaselineを上回っている(RGのTemplateを除く)。実装: https://github.com/ernestgong/data2text-three-dimensions/
#NeuralNetwork #NaturalLanguageGeneration #NLP #DataToTextGeneration Issue Date: 2021-09-16 Operation-guided Neural Networks for High Fidelity Data-To-Text Generation, Nie+, Sun Yat-Sen University, EMNLP'18 Comment概要

既存のニューラルモデルでは、生データ、あるいはそこから推論された事実に基づいて言語を生成するといったことができていない(e.g. 金融, 医療, スポーツ等のドメインでは重要)。

たとえば下表に示した通り、"edge"という単語は、スコアが接戦(95-94=1 -> スコアの差が小さい)であったことを表現しているが、こういったことを既存のモデルでは考慮して生成ができない。



image



これを解決するために、演算(operation)とニューラル言語モデルを切り離す(事前に計算しておく)といったことが考えられるが、

① 全てのフィールドに対してoperationを実行すると、探索空間が膨大になり、どの結果に対して言及する価値があるかを同定するのが困難(言及する価値がある結果がほとんど存在しない探索空間ができてしまう)

② 演算結果の数値のスパンと、言語選択の対応関係を確立させるのが困難(e.g. スコアの差が1のとき"edge"と表現する、など)

といった課題がある。



①に対処するために、事前にraw dataに対して演算を適用しその結果を利用するモデルを採用。どの演算結果を利用するかを決定するために、gating-mechanismを活用する。

②に対処するために、quantization layerを採用し、演算結果の数値をbinに振り分け、その結果に応じて生成する表現をguideするようなモデルを採用する。



モデル概要

モデルはrecord encoder(h_{i}^{ctx}を作る)、operation encoder(h_{i}^{op}を作る)、operation result encoder(h_{i}^{res}を作る)によって構成される。



image



record encoder

record encoderは、wisemanらと同様に、index (e.g. row 2), column (e.g. column Points), value (e.g. 95)のword embeddingを求め、それらをconcatしたものをbi-directional RNNに入力し求める。



operation encoder

operation encoderでは、operation op_{i}は、1) operationの名称 (e.g. minus) 2) operationを適用するcolumn (e.g. Points), 3) operationを適用するrow (e.g. {1, 2}などのrow indexの集合)によって構成されており、これらのembeddingをlookupしconcatした後、non-linear layerで変換することによってoperationのrepresentationを取得する。3)operationを適用するrowについては、複数のindexによって構成されるため、各indexのembeddingをnon-linear layerで変換したベクトルを足し合わせた結果に対してtanhを適用したベクトルをembeddingとして利用する。



operation result encoder

operation result encoderは、scalar results(minus operationにより-1)およびindexing results (argmax operationによりindex 2)の二種類を生成する。これら二種類に対して異なるencoding方法を採用する。

scalar results

scalar resultsに対しては、下記式でscalar valueをquantization vector(q_{i})に変換する。qutization vectorのlengthはLとなっており、Lはbinの数に相当している。つまり、quantization vectorの各次元がbinの重みに対応している。その後、quantization vectorに対してsoftmaxを適用し、quantization unit(quantization vectorの各次元)の重みを求める。最後に、quantization embeddingと対応するquantization unitの重み付き平均をとることによってh_{i}^{res}を算出する。



Q. 式を見るとW_{q}がscalar resultの値によって定数倍されるだけだから、softmaxによって求まるquantization unitの重みの序列はscalar resultによって変化しなそうに見えるが、これでうまくいくんだろうか・・・?序列は変わらなくても各quantization unit間の相対的な重みの差が変化するから、それでうまくscalar値の変化を捉えられるの・・・か・・・?



indexing results

indexing resultsについては、h_{i}^{res}をシンプルにindexのembeddingとする。



Decoder

context vectorの生成方法が違う。従来のモデルと比較して、context vectorを生成する際に、レコードをoperationの両方をinputとする。

image



operationのcontext vector c_{t}^{op}とrecordsのcontext vector c_{t}^{ctx}をdynamic gate λ_{t}によって重み付けし最終的なcontext vectorを求める。λ_{t}は、t-1時点でのデコーダのhidden stateから重みを求める。

c_{t}^{op}は次式で計算され:

image

c_{t}^{scl, idx}は、

image

よって計算される。要は、decoderのt-1のhidden stateと、operation vectorを用いて、j番目のoperationの重要度(β)を求め、operationの重要度によって重み付けしてoperation result vectorを足し合わせることによって、context vectorを算出する。

また、recordのcontext vector c_{t}^{ctx}は、h_{j}^{res}とh_{j}^{op}と、h_{j}^{ctx}に置き換えることによって算出される。



image



データセット

人手でESPN, ROTOWIRE, WIKIBIOデータセットのReferenceに対して、factを含むtext spanと、そのfactの種類を3種類にラベル付した。input factsはinput dataから直接見つけられるfact, inferred factsはinput dataから直接見つけることはできないが、導き出すことができるfact、unsupported factsはinput dataから直接あるいは導き出すことができないfact。wikibioデータセットはinferred factの割合が少ないため、今回の評価からは除外し、ROTOWIRE, ESPNを採用した。特にESPNのheadline datasetがinferred factsが多かった。



image結果

自動評価

image



wiseman modelをOpAttがoutperformしている。また、Seq2Seq+op+quant(Seq2Seq+copyに対してoperation result encoderとquantization layerを適用したもの)はSeq2Seq+Copyを上回っているが、OpAttほとではないことから、提案手法のoperation encoderの導入とgating mechanismが有効に作用していることがわかる。



image



採用するoperationによって、生成されるテキストも異なるようになっている。



人手評価

3人のNBAに詳しいEnglish native speakerに依頼してtest dataに対する生成結果にアノテーションをしてもらった。アノテーションは、factを含むspanを同定し、そのfactがinput facts/inferred facts/unsupported factsのどれかを分類してもらった。最後に、そのfactが入力データからsupportされるかcontradicted(矛盾するか)かをアノテーションしてもらった。

提案手法が、より多くのinferred factsについて言及しながらも、少ないCont.であることがわかった。



image

分析

Quantizationの効果

チーム間のスコアの差が、5つのbinのに対してどれだけの重みを持たせたかのheatmap。似たようなスコアのgapの場合は似たような重みになることがわかる。ポイント差の絶対値が小さい場合は、重みの分布の分散が大きくなるのでより一般的な単語で生成を行うのに対し、絶対値が大きい場合は分散が小さくなるため、unique wordをつかって生成するようになる。

image



pointのgapの大きさによって利用される単語も変化していることがわかる。ポイント差がちいさいときは"edge"、大きいときは"blow out"など。

image



gating mechanismの効果

生成テキストのtimestepごとのgateの重みの例。色が濃ければ濃いほど、operation resultsの情報を多く利用していることを表す。チームリーダーを決める際や(horford)勝者を決める際に(Hawks)、operation resultsの重みが大きくなっており、妥当な重み付けだと考察している。



image



#NLP #QuestionAnswering Issue Date: 2018-06-29 Learning to Paraphrase for Question Answering, Dong+, EMNLP'17 Commentquestion-answeringタスクにおいて、paraphrasingを活用して精度向上させる研究

似たような意味の質問が、異なる表現で出現することがあるので、

questionの様々なparaphrasingを用意して活用したいという気持ち。

たとえば、



・Is the campus far from Shibuya?

・Is the campus near the city center?



のような例があげられる。



手法としては、paraphrasing modelとqa modelを用意し、あるquestionが与えられたときに、paraphrasing modelでparaphraseのスコアを算出、その後、各paraphrasingの候補に対してqa modelで解答を予測し、両者のスコアの積のsummationによって最終的なanswerを決定QAはデータセットのサイズが小さいので、paraphrasingのような手法が有効に働いているのかもしれない
#RecommenderSystems #Pocket #NLP Issue Date: 2018-01-01 MoodSwipe: A Soft Keyboard that Suggests Messages Based on User-Specified Emotions, Huang+, EMNLP'17 #Embeddings #Pocket #NLP #UserModeling Issue Date: 2018-01-01 Multi-View Unsupervised User Feature Embedding for Social Media-based Substance Use Prediction, Ding+, EMNLP'17 #Pocket #NLP Issue Date: 2018-01-01 Adapting Sequence Models for Sentence Correction, Schmaltz (with Rush), EMNLP'17 #NeuralNetwork #NaturalLanguageGeneration #NLP #DataToTextGeneration #Admin'sPick Issue Date: 2018-01-01 Challenges in Data-to-Document Generation, Wiseman+ (with Rush), EMNLP'17 Comment・RotoWire(NBAのテーブルデータ + サマリ)データを収集し公開

image



・Rotowireデータの統計量

image【モデルの概要】

・attention-based encoder-decoder model



・BaseModel

 ・レコードデータ r の各要素(r.e: チーム名等のENTITY r.t: POINTS等のデータタイプ, r.m: データのvalue)からembeddingをlookupし、1-layer MLPを適用し、レコードの各要素のrepresentation(source data records)を取得

 ・Luongらのattentionを利用したLSTM Decoderを用意し、source data recordsとt-1ステップ目での出力によって条件付けてテキストを生成していく

 ・negative log likelihoodがminimizeされるように学習する



・Copying

 ・コピーメカニズムを導入し、生成時の確率分布に生成テキストを入力からコピーされるか否かを含めた分布からテキストを生成。コピーの対象は、入力レコードのvalueがコピーされるようにする。

 ・コピーメカニズムには下記式で表現される Conditional Copy Modelを利用し、p\(zt|y1:t-1, s)はMLPで表現する。

image

 ・またpcopyは、生成している文中にあるレコードのエンティティとタイプが出現する場合に、対応するvalueをコピーし生成されるように、下記式で表現する

image

 ・ここで r(yt) =

image

#DocumentSummarization #Metrics #NLP Issue Date: 2018-01-01 Why We Need New Evaluation Metrics for NLG, Novikova+, EMNLP'17 Comment解説スライド:https://www.dropbox.com/s/7o8v64nr6gyj065/20170915_SNLP2017_Nishikawa.pptx?dl=0言語生成の評価指標が信用ならないので、3種類の生成器、3種類のデータを用意し、多数の自動評価尺度を利用した評価結果と人手評価の結果を比較した結果、相関がなかった。



既存の自動評価は人手評価と弱い相関しかなく、その有効性はデータとドメインに依存。

システム間の比較およびシステムの性能が低い場合においては有効。



(2025.05.12)
解説スライド中のスライドが複数掲載されていましたが削除しました。
#MachineLearning #DomainAdaptation #UserModeling Issue Date: 2017-12-31 Human Centered NLP with User-Factor Adaptation, Lynn+, EMNLP'17 Comment126 Frustratingly easy domain adaptationをPersonalization用に拡張している。

Frustratingly easy domain adaptationでは、domain adaptationを行うときに、discreteなクラスに分けてfeature vectorを作る(age>28など)が、Personalizationを行う際は、このようなdiscreteな表現よりも、continousな表現の方が表現力が高いので良い(feature vectorとそのままのageを使いベクトルをcompositionするなど)。

psychologyの分野だと、人間のfactorをdiscreteに表現して、ある人物を表現することはnoisyだと知られているので、continuousなユーザfactorを使って、domain adaptationしましたという話。



やってることは単純で、feature vectorを作る際に、各クラスごとにfeature vectorをコピーして、feature augmentationするのではなく、continuousなuser factorとの積をとった値でfeature augmentationするというだけ。

これをするだけで、Sentiment analysis, sarcasm detection, PP-attachmentなどのタスクにおいて、F1スコアで1〜3ポイント程度のgainを得ている。特に、sarcasm detectionではgainが顕著。

pos tagging, stance detection(against, neutral, forなどの同定)では効果がなく、stance detectionではそもそもdiscrete adaptationの方が良い結果。



正直、もっと色々やり方はある気がするし、user embeddingを作り際などは5次元程度でしか作ってないので、これでいいのかなぁという気はする・・・。

user factorの次元数増やすと、その分feature vectorのサイズも大きくなるから、あまり次元数を増やしたりもできないのかもしれない。
#NeuralNetwork #Pretraining #Unsupervised #NLP Issue Date: 2017-12-31 Unsupervised Pretraining for Sequence to Sequence Learning, Ramachandran+, EMNLP'17 Commentseq2seqにおいてweightのpretrainingを行う手法を提案

seq2seqでは訓練データが小さいとoverfittingしやすいという弱点があるので、大規模なデータでunsupervisedにpretrainingし、その後目的のデータでfinetuneすることで精度を向上させましょう、というお話。

WMTの翻訳タスクにおいて、1.3ポイント BLEUスコアが改善、abstractive summarizationでも実験したが、精度は向上せず。しかしながら要約ではpretrainingによってrepetitionが減少したと主張。



encoder, decoderそれぞれを切り離して考えると、それぞれ言語モデルとみなすことができるため(encoderにはoutput-layerを追加)、それぞれの言語モデルを独立に大規模なラベルなしデータでpretrainingする。

fine-tuneする際は、targetデータだけでなく、pretrainingする際のデータも同時に学習を続ける(LM Objective)

LM Objectiveは、target側のobjective functionにpretraining側のobjective functionの項を重み付きで追加したもの。



Abltion studyによると、MTにおいてはsoftmax-layerをpretrainingすることが重要。softmax-layerのpretrainingをablationするとBLEUスコアが1.6ポイント減少。

LM objectiveをなくすと、pretrainingの効果がほとんどなくなる(BLEUスコア-2.0ポイント)。

sumarizationにおいては、embeddingのpretrainingが大幅なROUGEスコアの改善を見せた。また、MTと異なり、encoder側のpretrainingがスコア向上に寄与。



LM Objectiveは結構使えそうな印象
#NeuralNetwork #Sentence #Embeddings #NLP #RepresentationLearning Issue Date: 2017-12-28 Supervised Learning of Universal Sentence Representations from Natural Language Inference Data, Conneau+, EMNLP'17 Commentslide: https://www.slideshare.net/naoakiokazaki/supervised-learning-of-universal-sentence-representations-from-natural-language-inference-data汎用的な文のエンコーダができました!という話。



SNLIデータでパラメータ学習、エンコーダ構成スライド図中右側のエンコーダ部分をなるべく一般的な文に適用できるように学習したい。



色々なタスクで、文のエンコーダ構成を比較した結果、bi-directional LSTMでエンコードし、要素ごとの最大値をとる手法が最も良いという結果。

隠れ層の次元は4096とかそのくらい。

Skip-Thoughtは学習に1ヶ月くらいかかるけど、提案手法はより少ないデータで1日くらいで学習終わり、様々なタスクで精度が良い。



ベクトルの要素積、concat, subなど、様々な演算を施し、学習しているので、そのような構成の元から文エンコーダを学習すると何か意味的なものがとれている?

SNLIはNatural Language Inferenceには文の意味理解が必須なので、そのデータ使って学習するといい感じに文のエンコードができます。



NLIのデータは色々なところで有用なので、日本語のNLIのデータとかも欲しい。
#NeuralNetwork #MachineTranslation #Pocket #NLP Issue Date: 2017-12-28 Neural Machine Translation with Source-Side Latent Graph Parsing, Kazuma Hashimoto+, EMNLP'17 #NeuralNetwork #Controllable #NLP #Length Issue Date: 2025-01-03 Controlling Output Length in Neural Encoder-Decoders, Yuta Kikuchi+, EMNLP'16 Summaryニューラルエンコーダ-デコーダモデルの出力長を制御する方法を提案。特にテキスト要約において、デコーディングと学習に基づく2つのアプローチを用い、学習ベースの方法が要約の質を保ちながら長さを調整できることを示した。 CommentEncoder-Decoderモデルにおいてoutput lengthを制御する手法を提案した最初の研究 #NeuralNetwork #Tutorial #SentimentAnalysis #NLP Issue Date: 2018-01-01 Neural Network for Sentiment Analysis, EMNLP'16 #NeuralNetwork #NaturalLanguageGeneration #NLP #Dataset #ConceptToTextGeneration Issue Date: 2017-12-31 Neural Text Generation from Structured Data with Application to the Biography Domain, Lebret+, Lebret+, EMNLP'16 #NeuralNetwork #BeamSearch #NLP Issue Date: 2017-12-30 Sequence-to-Sequence Learning as Beam-Search Optimization, Wiseman+, EMNLP'16 Commentseq2seqを学習する際には、gold-history(これまで生成した単語がgoldなものと一緒)を使用し、次に続く単語の尤度を最大化するように学習するが、これには、



1. Explosure Bias: test時ではtraining時と違いgold historyを使えないし、training時には過去に生成した単語に誤りがあるみたいな状況がない

2. Loss-Evaluation Mismatch: training時は単語レベルのlossを使うが、だいたいはsentence-levelのmetrics (BLEUなど)を改善したい

3. Label Bias: 各タイムステップでの単語の生起確率が局所的に正規化され、誤ったhistoryに続く単語がgoldな履歴に続く単語と同じ量(の確率?)を受け取ってしまう



これらを解決するために、targetの"sequence"に対してスコア(確率ではない)を与えるようなseq2seqモデルを提案し、訓練方法として、beam search optimization(training時のlossとしてbeam searchの結果得られるerrorを用いる)を提案。
#NeuralNetwork #MachineTranslation #NLP #Admin'sPick Issue Date: 2021-06-02 Effective Approaches to Attention-based Neural Machine Translation, Luong+, EMNLP'15 CommentLuong論文。attentionの話しはじめると、だいたいBahdanau+か、Luong+論文が引用される。



Global Attentionと、Local Attentionについて記述されている。Global Attentionがよく利用される。



Global Attention

image



Local Attention

image

やはり菊池さんの解説スライドが鉄板。

https://www.slideshare.net/yutakikuchi927/deep-learning-nlp-attention参考までに、LuongらのGlobal Attentionの計算の流れは下記となっている:

・h_t -> a_t -> c_t -> h^~_t



BahdanauらのAttentionは下記

・h_t-1 -> a_t -> c_t -> h_t



t-1のhidden stateを使うのか、input feeding後の現在のhidden stateをattention weightの計算に使うのかが異なっている。また、過去のalignmentの情報を考慮した上でデコーディングしていくために、input-feeding approachも提案

image



input-feeding appproachでは、t-1ステップ目のoutputの算出に使ったh^~_t(hidden_stateとcontext vectorをconcatし、tanhのactivationを噛ませた線形変換を行なったベクトル)を、時刻tのinput embeddingにconcatして、RNNに入力する。
#DocumentSummarization #Metrics #NLP Issue Date: 2018-01-01 Re-evaluating Automatic Summarization with BLEU and 192 Shades of ROUGE, Graham, EMNLP'15 Comment文書要約で使用されているMetric、特にBLEUやROUGEの結果(可能な192のパターン)と、人手の結果との相関を再分析している。

その結果、BLEUがもっとも人手評価との相関が高く、ROUGE-2のPrecisionの平均(ステミング、stop words除去)がROUGEの中でbest-performingなvariantだった。



要約のMetrcの最適な検定方法として、Williams検定を利用。

再評価の結果、以前推奨されていたvariantとは異なるMetricsが良い結果に。

best-performing ROUGE resultを用いて、既存のstate-of-the-artなシステムを再度ランキングづけすると、originalのものとは結構異なる結果になった。



(一部のスコアが良かったシステムのスコアが相対的にかなり悪化している)

image



また、BLEUが人手評価ともっとも高い相関を示したが、best-performingなROUGE variantとは統計的な有意差はなかった。
#DocumentSummarization #NeuralNetwork #Sentence #Supervised #NLP #Abstractive #Admin'sPick Issue Date: 2017-12-31 A Neural Attention Model for Sentence Summarization, Rush+, EMNLP'15 Comment解説スライド:https://www.slideshare.net/akihikowatanabe3110/a-neural-attention-model-for-sentence-summarization-65612331 #Single #DocumentSummarization #NeuralNetwork #Sentence #Document #NLP #Dataset #Abstractive #Admin'sPick Issue Date: 2017-12-28 LCSTS: A large scale chinese short text summarizatino dataset, Hu+, EMNLP'15 CommentLarge Chinese Short Text Summarization (LCSTS) datasetを作成



データセットを作成する際は、Weibo上の特定のorganizationの投稿の特徴を利用。

Weiboにニュースを投稿する際に、投稿の冒頭にニュースのvery short summaryがまず記載され、その後ニュース本文(短め)が記載される特徴があるので、この対をsource-reference対として収集した。

収集する際には、約100個のルールに基づくフィルタリングやclearning, 抽出等を行なっている。



image



データセットのpropertyとしては、下記のPartI, II, IIIに分かれている。



PartI: 2.4Mのshort text ・summary pair

PartII: PartIからランダムにサンプリングされた10kのpairに対して、5 scaleで要約のrelevanceをratingしたデータ。ただし、各pairにラベルづけをしたevaluatorは1名のみ。

PartIII: 2kのpairに対して(PartI, PartIIとは独立)、3名のevaluatorが5-scaleでrating。evaluatorのratingが一致した1kのpairを抽出したデータ。



image



RNN-GRUを用いたSummarizerも提案している。



image



CopyNetなどはLCSTSを使って評価している。他にも使ってる論文あったはず。ACL'17のPointer Generator Networkでした。
#NeuralNetwork #Document #Embeddings #SentimentAnalysis #NLP Issue Date: 2017-12-28 Document Modeling with Gated Recurrent Neural Network for Sentiment Classification, Tang+, EMNLP'15 Commentword level -> sentence level -> document level のrepresentationを求め、documentのsentiment classificationをする話。

documentのRepresentationを生成するときに参考になるやも。

sentenceのrepresentationを求めるときは、CNN/LSTMを使う。

document levelに落とすことは、bi-directionalなGatedRNN(このGatedRNNはLSTMのoutput-gateが常にonになっているようなものを使う。sentenceのsemanticsに関する情報を落としたくないかららしい。)を使う。

sentiment classificationタスクで評価し、(sentence levelのrepresentationを求めるときは)LSTMが最も性能がよく、documentのrepresentationを求めるときは、standardなRNNよりもGatedRNNのほうが性能よかった。
#DocumentSummarization #NeuralNetwork #Sentence #NLP #Admin'sPick Issue Date: 2017-12-28 Sentence Compression by Deletion with LSTMs, Fillipova+, EMNLP'15 Commentslide:https://www.slideshare.net/akihikowatanabe3110/sentence-compression-by-deletion-with-lstms #AdaptiveLearning #EducationalDataMining #LearningAnalytics #DropoutPrediction Issue Date: 2021-10-29 Predicting MOOC Dropout over Weeks Using Machine Learning Methods, EMNLP'14 Workshop, Marius Kloft CommentEMNLP'14のWorkshop論文。引用数が120件とかなり多め。MOOCsのclickstreamデータから、numericalなfeatureを作成。SVMに食わせて学習し、Dropout Predictionを行なっている。



psychologyのMOOCコースからデータ収集。12週に渡って講義が行われる。統計量は以下:

初週のユーザ数:11,607

最後の週まで残ったユーザ数:3,861

参加した全体のユーザ数:20,828

DropOut率:81.4%

コース自体は19週間受講可能なので、その間のデータがある。



dropoutか否かのラベルは、翌週にターゲットユーザのIDと紐づいたアクティビティがあるかどうかで判断。ユーザuの各週Wiに対して、i=1, ..., 19の +1 / -1 ラベルが付与される。

+1 がDropout, -1がNo Dropout。特徴量:

image

image



最初の1 -・9週の間は、あまりDropoutが予測できないが、それ以後はhistory featureが効いて予測ができるようになる。
#NaturalLanguageGeneration #SingleFramework #NLP #ConceptToTextGeneration Issue Date: 2017-12-31 Inducing document plans for concept-to-text generation, Konstas+, EMNLP'13 #RecommenderSystems #Comments Issue Date: 2018-01-01 Personalized Recommendation of User Comments via Factor Models, Agarwal+, EMNLP'11 CommentPersonalizedなコメント推薦モデルを提案。rater-authorの関係、rater-commentの関係をlatent vectorを用いて表現し、これらとバイアス項の線形結合によりraterのあるコメントに対するratingを予測する。

パラメータを学習する際は、EMでモデルをfittingする。

バイアスとして、rater bias, comment popularity bias, author reputation biasを用いている。

rater-commentに関連するバイアスやlatent vectorは、コメントのbag-of-wordsからregressionした値を平均として持つガウス分布から生成される。



Yahoo Newsのコメントで実験。ROC曲線のAUCとPrecsionで評価。

user-user, user-commentを単体で用いたモデルよりも両者を組み合わせた場合が最も性能が良かった。

かなり綺麗に結果が出ている。
#Multi #PersonalizedDocumentSummarization #InteractivePersonalizedSummarization #NLP #Admin'sPick Issue Date: 2017-12-28 Summarize What You Are Interested In: An Optimization Framework for Interactive Personalized Summarization, Yan+, EMNLP'11, 2011.07 Commentimage



ユーザとシステムがインタラクションしながら個人向けの要約を生成するタスク、InteractivePersonalizedSummarizationを提案。



ユーザはテキスト中のsentenceをクリックすることで、システムに知りたい情報のフィードバックを送ることができる。このとき、ユーザがsentenceをクリックする量はたかがしれているので、click smoothingと呼ばれる手法を提案し、sparseにならないようにしている。click smoothingは、ユーザがクリックしたsentenceに含まれる単語?等を含む別のsentence等も擬似的にclickされたとみなす手法。



4つのイベント(Influenza A, BP Oil Spill, Haiti Earthquake, Jackson Death)に関する、数千記事のニュースストーリーを収集し(10k〜100k程度のsentence)、評価に活用。収集したニュースサイト(BBC, Fox News, Xinhua, MSNBC, CNN, Guardian, ABC, NEwYorkTimes, Reuters, Washington Post)には、各イベントに対する人手で作成されたReference Summaryがあるのでそれを活用。

objectiveな評価としてROUGE、subjectiveな評価として3人のevaluatorに5scaleで要約の良さを評価してもらった。



image



結論としては、ROUGEはGenericなMDSモデルに勝てないが、subjectiveな評価においてベースラインを上回る結果に。ReferenceはGenericに生成されているため、この結果を受けてPersonalizationの必要性を説いている。

image



また、提案手法のモデルにおいて、Genericなモデルの影響を強くする(Personalizedなハイパーパラメータを小さくする)と、ユーザはシステムとあまりインタラクションせずに終わってしまうのに対し、Personalizedな要素を強くすると、よりたくさんクリックをし、結果的にシステムがより多く要約を生成しなおすという結果も示している。



image
#NaturalLanguageGeneration #SingleFramework #NLP #DataToTextGeneration Issue Date: 2017-12-31 A simple domain-independent probabilistic approach to generation, Angeli+, EMNLP'10 #NaturalLanguageGeneration #Others #NLP #ConceptToTextGeneration Issue Date: 2017-12-31 A generative model for parsing natural language to meaning representations, Lu+, EMNLP'08 #NaturalLanguageGeneration #DataDriven #NLP #ConceptToTextGeneration Issue Date: 2017-12-31 Collective content selection for concept-to-text generation, Barzilay+, HLT_EMNLP'05 #DocumentSummarization #NLP #Alignment Issue Date: 2018-01-15 A Phrase-Based HMM Approach to Document_Abstract Alignment, Daume+, EMNLP'04 CommentAbstractsとSource TextのAlignmentをとるために、Phrase-Based HMMを提案。

Ziff-Davis Corpusのテキストに対して、2人のannotatorによってgold standardを作成。

評価においてMTにおけるIBM Model4やHMM basedな単語アライメント手法と比較しているが、fair comparisonのために行なっている施策が参考になる。
#Single #DocumentSummarization #Document #GraphBased #NLP #Extractive #Admin'sPick Issue Date: 2018-01-01 TextRank: Bringing Order into Texts, Mihalcea+, EMNLP'04 CommentPageRankベースの手法で、キーワード抽出/文書要約 を行う手法。

キーワード抽出/文書要約 を行う際には、ノードをそれぞれ 単語/文 で表現する。

ノードで表現されている 単語/文 のsimilarityを測り、ノード間のedgeの重みとすることでAffinity Graphを構築。

あとは構築したAffinity Graphに対してPageRankを適用して、ノードの重要度を求める。

ノードの重要度に従いGreedyに 単語/文 を抽出すれば、キーワード抽出/文書要約 を行うことができる。単一文書要約のベースラインとして使える。gensimに実装がある。

個人的にも実装している:https://github.com/AkihikoWatanabe/textrank