Generalに関する論文・技術記事メモの一覧

General

[Paper Note] Nemotron-Cascade: Scaling Cascaded Reinforcement Learning for General-Purpose Reasoning Models, Boxin Wang+, arXiv'25, 2025.12

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #Alignment #ReinforcementLearning #Reasoning #OpenWeight #OpenSource #read-later #RLVR #Selected Papers/Blogs #CrossDomain #KeyPoint Notes Issue Date: 2025-12-17 GPT Summary- 一般目的の推論モデルを強化学習（RL）で構築する際の課題に対処するため、カスケードドメイン別強化学習（Cascade RL）を提案。Nemotron-Cascadeは、指示モードと深い思考モードで動作し、異なるドメインのプロンプトを順次調整することで、エンジニアリングの複雑さを軽減し、最先端のパフォーマンスを実現。RLHFを前段階として使用することで推論能力が向上し、ドメイン別RL段階でもパフォーマンスが改善される。14Bモデルは、LiveCodeBenchで優れた結果を示し、2025年国際情報オリンピックで銀メダルを獲得。トレーニングとデータのレシピも共有。 Comment

元ポスト:

Loading…

従来のRLはすべてのドメインのデータをmixすることでおこなれてきたが、個々のドメインのデータを個別にRLし、cascading方式で適用 (Cascade RL) することを提案している（実際は著者らの先行研究でmath->codingのcascadingは実施されていたが、それをより広範なドメイン(RLHF -> instruction following -> math -> coding -> software engineering)に適用した、という研究）。
cascadingにはいくつかのメリットがありRLの学習速度を改善できる（あるいはRLのインフラの複雑性を緩和できる）
- ドメインごとのverificationの速度の違いによって学習速度を損なうことがない（e.g. 数学のrule-basedなverificationは早いがcodingは遅い）
- ドメインごとに出力長は異なるためオンポリシーRLを適用すると効率が落ちる（長いレスポンスの生成を待たなければらないため）

本研究で得られた利点としてはFigure 1を参考に言及されているが
- RLHF, instruction followingを事前に適用することによって、後段のreasoningの性能も向上する（reasoningのwarmupになる）
- 加えて応答の長さの削減につながる
- RLはcatastrophic forgettingに強く、前段で実施したドメインの性能が後段のドメインのRLによって性能が劣化しない
- といってもFigure 2を見ると、codingとsoftware engineeringは結構ドメイン近いのでは・・・？という気はするが・・・。
- RLにおけるカリキュラム学習やハイパーパラメータをドメインごとに最適なものを適用できる

他にもthinking/non-thinking に関することが言及されているが読めていない。

[Paper Note] mGTE: Generalized Long-Context Text Representation and Reranking Models for Multilingual Text Retrieval, Xin Zhang+, arXiv'24, 2024.07

Paper/Blog Link My Issue
#Embeddings #Pocket #NLP #RepresentationLearning #MultiLingual #Encoder Issue Date: 2026-01-20 GPT Summary- 長文コンテキストの多言語テキスト表現モデル（TRM）と再ランキングモデルを構築し、RoPEとアンパディングを用いて8192トークンのコンテキストで事前訓練を行った。評価の結果、従来の最先端モデルを上回り、再ランキングモデルは大規模BGE-M3モデルと同等の性能を発揮した。訓練と推論の効率も高く、さまざまな研究や産業に貢献する可能性がある。 Comment

HF:
- BERT+GLU+RoPE: https://huggingface.co/Alibaba-NLP/gte-large-en-v1.5
- https://huggingface.co/Alibaba-NLP/gte-Qwen1.5-7B-instruct

RAIN: Your Language Models Can Align Themselves without Finetuning, Yuhui Li+, N_A, arXiv'23

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #Alignment Issue Date: 2023-09-30 GPT Summary- 本研究では、追加のデータなしで凍結された大規模言語モデル（LLMs）を整列させる方法を探求しました。自己評価と巻き戻しメカニズムを統合することで、LLMsは自己ブースティングを通じて人間の好みと一致する応答を生成することができることを発見しました。RAINという新しい推論手法を導入し、追加のデータやパラメータの更新を必要とせずにAIの安全性を確保します。実験結果は、RAINの効果を示しており、LLaMA 30Bデータセットでは無害率を向上させ、Vicuna 33Bデータセットでは攻撃成功率を減少させることができました。 Comment

トークンのsetで構成されるtree上を探索し、出力が無害とself-evaluationされるまで、巻き戻しと前方生成を繰り返し、有害なトークンsetの重みを動的に減らすことでalignmentを実現する。モデルの追加のfinetuning等は不要。

self-evaluationでは下記のようなpromptを利用しているが、このpromptを変更することでこちら側の意図したとおりに出力のアライメントをとることができると思われる。非常に汎用性の高い手法のように見える。

Improving Domain Generalization for Prompt-Aware Essay Scoring via Disentangled Representation Learning, ACL'23

Paper/Blog Link My Issue
#NLP #RepresentationLearning #AES(AutomatedEssayScoring) Issue Date: 2023-07-18 GPT Summary- 自動エッセイスコアリング（AES）は、エッセイを評価するためのモデルですが、既存のモデルは特定のプロンプトにしか適用できず、新しいプロンプトに対してはうまく汎化できません。この研究では、プロンプトに依存しない特徴とプロンプト固有の特徴を抽出するためのニューラルAESモデルを提案し、表現の汎化を改善するための分離表現学習フレームワークを提案しています。ASAPとTOEFL11のデータセットでの実験結果は、提案手法の有効性を示しています。

How Do In-Context Examples Affect Compositional Generalization?, ACL'23

Paper/Blog Link My Issue
#NLP #LanguageModel #In-ContextLearning #Composition Issue Date: 2023-07-13 GPT Summary- 本研究では、組成的な一般化を調査するためのテストスイートであるCoFeを提案し、インコンテキスト学習の組成的な一般化について研究しました。インコンテキストの例の選択が組成的な一般化のパフォーマンスに影響を与えることを発見し、類似性、多様性、複雑さの要素を研究しました。さらに、架空の単語に対する組成的な一般化は一般的な単語に比べて弱いことが観察されました。インコンテキストの例が言語構造をカバーすることが重要であることも示されました。

[Paper Note] StarSpace: Embed All The Things, Wu+, AAAI'18

Paper/Blog Link My Issue
#RecommenderSystems #NeuralNetwork #Embeddings #MachineLearning #RepresentationLearning #AAAI #Selected Papers/Blogs Issue Date: 2017-12-28 Comment

分類やランキング、レコメンドなど、様々なタスクで汎用的に使用できるEmbeddingの学習手法を提案。

Embeddingを学習する対象をEntityと呼び、Entityはbag-of-featureで記述される。

Entityはbag-of-featureで記述できればなんでもよく、

これによりモデルの汎用性が増し、異なる種類のEntityでも同じ空間上でEmbeddingが学習される。

学習方法は非常にシンプルで、Entity同士のペアをとったときに、relevantなpairであれば類似度が高く、

irelevantなペアであれば類似度が低くなるようにEmbeddingを学習するだけ。

たとえば、Entityのペアとして、documentをbag-of-words, bag-of-ngrams, labelをsingle wordで記述しテキスト分類、

あるいは、user_idとユーザが過去に好んだアイテムをbag-of-wordsで記述しcontent-based recommendationを行うなど、応用範囲は幅広い。

5種類のタスクで提案手法を評価し、既存手法と比較して、同等かそれ以上の性能を示すことが示されている。

手法の汎用性が高く学習も高速なので、色々な場面で役に立ちそう。

また、異なる種類のEntityであっても同じ空間上でEmbeddingが学習されるので、学習されたEmbeddingの応用先が広く有用。

実際にSentimentAnalysisで使ってみたが（ポジネガ二値分類）、少なくともBoWのSVMよりは全然性能良かったし、学習も早いし、次元数めちゃめちゃ少なくて良かった。

StarSpaceで学習したembeddingをBoWなSVMに入れると性能が劇的に改善した。

解説：

https://www.slideshare.net/akihikowatanabe3110/starspace-embed-all-the-things