reading
[Paper Note] Proxy Compression for Language Modeling, Lin Zheng+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#NLP #LanguageModel #Tokenizer #Selected Papers/Blogs #KeyPoint Notes #Byte-level #Author Thread-Post Issue Date: 2026-04-19 GPT Summary- プロキシ圧縮を導入し、圧縮入力と生のバイト列の共同訓練を通じて、モデルに両者の整合を学習させる新しい訓練手法を提案。実験では、訓練効率が大幅に改善され、固定計算予算内でのバイトレベルベースラインを上回る成果を示す。モデル規模の拡大に伴い、プロキシ訓練を受けたモデルはトークナイザーアプローチに匹敵または競合する性能を発揮し、頑健性を維持。 Comment
元ポスト:
既存の言語モデルはバイト列をcompressorを通じて圧縮されたシンボルを通じて学習されているものとみなせるが(compressorは言語モデルであればtokenizerでありシーケンス長を4--6倍削減する)、これにより特定の言語モデルがcompressorと強く紐づいてしまう欠点がある。tokenizerを噛ませる欠点としては、グリッチトークン(tokenizerのvocabには登録されているが学習ができていないトークン)やprompt boundary issue (The Art of Prompt Design: Prompt Boundaries and Token Healing, Scott Lundberg, 2023.05
)、言語固有のバイアスなどの問題が生じること。
提案手法はモデルのアーキテクチャとnext token predictionは一切変えずに適用できる。学習時のinputとして、warmupフェーズにおいてはcompressorによるトークン(
ベースラインとしてtokenizerを用いた場合と、バイト列をそのまま学習した場合、neuralモデルをcompressorとして用いた場合と比較し、0.5Bではベースラインよりもスコアが低いが、14B級になると、全てのbaselineを上回るだけでなく、tokenizerを用いた場合のモデルも上回った。
[Paper Note] Prefill-as-a-Service: KVCache of Next-Generation Models Could Go Cross-Datacenter, Ruoyu Qin+, arXiv'26, 2026.04
Paper/Blog Link My Issue
#EfficiencyImprovement #NLP #LanguageModel #Infrastructure #LLMServing #Selected Papers/Blogs #One-Line Notes #KV Cache #needs-revision #Author Thread-Post Issue Date: 2026-04-18 GPT Summary- Prefill-decode(PD)のデプロイにはKVCache転送が制限要因となっており、従来のアテンションモデルは大容量のKVCacheトラフィックを生成する。ハイブリッドアテンションアーキテクチャはKVCacheサイズを削減するが、データセンター間の運用に問題が残る。そこで、Prefill-as-a-Service(PrfaaS)を提案し、プリフィル処理を専用クラスタにオフロードして効率的なKVCache転送を実現。これにより、リソースの独立したスケーリングを可能にし、実績として、PrfaaSを用いた異種デプロイメントは従来よりも高い提供スループットを達成。 Comment
元ポスト:
LLM servingにおいて、prefillはcompute-intensiveで、decodeは(kv cacheが肥大化するため)memory-intensiveであるという特性があるため、(それぞれ得意な処理は得意なノードに任せるため)prefillとdecodeを分離して異なるノードで実施するprefill-decode disaggreagated servingというインフラのアーキテクチャが超巨大モデルでは主流だが、prefill-decode間でKV Cacheを転送しなければならないため、このような分離は同じ計算機クラスター内のRDMA(Remote Direct Memory Access)が可能なノード間に限定されるのが一般的である。
しかし、compute/memory特化型のリソースは通常チップの種類と物理的な場所の両方に制約されてプールされるので、両方のハードウェアがRDMAのような密結合なドメインで利用できないという欠点がある。このため、クラスターを超えてPD分離をしたいのだが、KV Cacheの転送が結局のところボトルネックとなる。現在のモデルはSparse/LinearなアテンションによってKV Cacheに必要なリソースが一桁減っているが、それでもnaiveにクラスタを跨いでPD分離をすると、突発的なリクエストのバーストや、不均一なPrefix Cacheの分布、クラスター間の帯域幅の変動などによって、計算効率が低下してしまう。
そのため、提案手法では、高スループットな長文のprefillに特化した独立クラスタを作り、ローカルにキャッシュされていない(主に長文の)、 prefillのみを同クラスタにオフロードし、短いリクエストはローカルでPDを実施するようなアプローチをとる。こうしてprefill特化クラスタによって生成されたKV Cacheはdecode可能なPDクラスタに対してイーサネットを介して転送される。これは選択的なオフロードであり、帯域幅が制限された経路で非効率な短いリクエストを送信を避けて、prefillの高速化が重要なリクエストのみをクラスタ間転送に集中させるという考え方に基づく。
これを実現するためには、(i)長いリクエストのみをオフロードするルーティングの仕組みと、(ii)ネットワークの輻輳を制御するための、帯域幅を考慮したスケジューラ、(iii)リクエスト長、キャッシュ配置、利用可能なクラスタの帯域幅を総合的に考慮してKV Cache全体を効率的を保ちながら管理するグローバルKV Cacheマネージャが必要。
このようなアーキテクチャを1T級のKimi Linearモデルで実験した結果、スループットが1.54倍、TTFTが64%改善した、という感じらしい。
[Paper Note] Memory Intelligence Agent, Jingyang Qiao+, arXiv'26, 2026.04
Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #MultiModal #ContrastiveLearning #VisionLanguageModel #DeepResearch #memory #Test-time Learning #Initial Impression Notes #needs-revision Issue Date: 2026-04-14 GPT Summary- DRAはLLMの推論と外部ツールを組み合わせ、過去の経験を活用するメモリシステムを含む。従来の方法はメモリの効率性に課題があり、MIAフレームワークを提案してこれを解決。プランナーとエグゼキューターから成る新しいアーキテクチャは、交互の強化学習で協調を強化し、推論中の更新を実現。さらに、記憶の双方向変換を可能にし、自己進化を促進する機構も搭載。広範な実験でMIAの優位性を示した。 Comment
元ポスト:
元ポストを読みなんとなーく分かったつとりになっているゆるふわ理解だが、Plannerのパラメータに経験をTest Time Learningの枠組みを埋め込み、既存のノンパラメトリックなメモリにtrajectoryも活用する二段構えである点が新しい点に感じた。
元論文を流し読みすると、Executor(vlm), Planner(llm, parametricなmemory), Memory Manager(trajectoryを格納; non parametricなmemory)の3つにマルチモーダルなAI Agentを分離する。
plannerは(ToDo 3.2節を読むべし
executorはplannerと過去のtrajectoryに基づいて実行をする。executorはGRPOに」るRLVRで訓練されるが、tool use, plannerのトークンはマスクされ学習される。
(後ほど追記
[Paper Note] KnowledgeSmith: Uncovering Knowledge Updating in LLMs with Model Editing and Unlearning, Yinyi Luo+, ICLR'26, 2025.10
Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #ICLR #ConceptErasure #KnowledgeEditing #KeyPoint Notes #needs-revision #Author Thread-Post Issue Date: 2026-04-14 GPT Summary- LLMsの知識更新メカニズムを理解するため、統一フレームワークKnowledgeSmithを提案。編集と忘却を制約付き最適化として位置づけ、自動データセット生成器を用いて修正戦略の知識伝播を研究。実験により、LLMsが人間と同様の更新を示さず、一貫性と容量のトレードオフがあることを発見。新たな戦略設計の示唆を提供。 Comment
元ポスト:
openreview: https://openreview.net/forum?id=znnA2Opw6v
知識の忘却と編集のダイナミクスを制約付きの最適化問題として統一的にモデル化(式3;この最適化問題を実際に解いているわけではなくあくまで理論的にこう定式化できるねという話だと思われる)し、
この定式化を通じて見ると、編集と忘却の違いはターゲットとする分布q_targetの選び方の違いにすぎず、様々な編集と忘却の先行研究は手法は違えど、この制約付きの最適化問題の異なるインスタンスを解いているに過ぎないという視点を提供しているようである。これにより、編集と忘却のトレードオフを公平に比較することが可能となるという主張をしているように見える(自信ない)。
そして、編集と忘却のトレードオフを厳格に分析するためのベンチマークとして、階層的な依存関係や(local vs. global)、更新の多段階での伝播を扱えるベンチマークが必要だが既存ベンチマークではこれらが不足しているため、
知識グラフに基づいて自動的に構築されたデータとベンチマーク(Figure 1を見るにテンプレートベースのMCQを)を作成して分析。
分析には6つのモデルファミリーの13のモデルが用いられ、スケールは1B--123Bの幅広いスケールのモデルで検証された。
(先行研究も含めてしっかり読まないと、式3と実験で用いられている手法AlphaEdit, ReLearnの関係性がちょっとわからなそう)
著者ポストにおいては、以下のようなtakeawayが記載されており、大きな知見としてはLLMはデータベースではなく、トレードオフを持つ複雑に絡み合ったシステムであり、以下のような点を明らかにした
- 知識の編集は意図しない変更を引き起こし
- 忘却は知識の完全な消去には失敗する
- 更新する知識を増やせば増やすほど、ローカルの知識は更新されるが、グローバルな一貫性が崩壊し
- 変更することが極めて困難な知識(たとえば歴史)が存在する
とのことである。
[Paper Note] Hybrid Linear Attention Done Right: Efficient Distillation and Effective Architectures for Extremely Long Contexts, Yingfa Chen+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#NLP #LanguageModel #Transformer #Distillation #LongSequence #PositionalEncoding #Architecture #read-later #Selected Papers/Blogs #RecurrentModels Issue Date: 2026-02-12 GPT Summary- ハイブリッドトランスフォーマーアーキテクチャは、ソフトマックスアテンションとRNNを組み合わせたもので、長い文脈の処理においてトレードオフを示すが、高コストな事前トレーニングが課題。既存の転送法は大量のデータを必要とし、ハイブリッドモデルの性能低下を招く。本研究では、トランスフォーマーからRNNアテンションハイブリッドモデルへの蒸留手法HALOを提案し、新たな位置エンコーディングスキームHyPEを導入したHypeNetを開発。HALOを用いてQwen3シリーズをHypeNetに変換し、わずか2.3Bトークンで同等の性能を実現しつつ、長文脈性能と効率を向上させた。
[Paper Note] LongVie 2: Multimodal Controllable Ultra-Long Video World Model, Jianxiong Gao+, arXiv'25, 2025.12
Paper/Blog Link My Issue
#ComputerVision #MultiModal #DiffusionModel #LongSequence #VideoGeneration/Understandings #WorldModels #4D (Video) #One-Line Notes #DepthEstimation Issue Date: 2025-12-21 GPT Summary- LongVie 2は、動画生成システムに基づくワールドモデルで、制御可能性、視覚品質、時間的一貫性を向上させるために3段階で訓練される自己回帰フレームワークです。マルチモーダルガイダンス、劣化認識トレーニング、歴史的コンテキストガイダンスを用いて、長距離制御と高い視覚忠実度を実現。LongVGenBenchを導入し、100本の高解像度動画を用いたベンチマークを提供。実験により、最先端の性能を達成し、連続動画生成の可能性を示しました。 Comment
pj page: https://vchitect.github.io/LongVie2-project/
元ポスト:
最大5分間のlong videoの生成が可能で、マルチモーダルな入力(depth map(空間の構造の制御; dense control signal), point map(キーポイントの時間軸での軌跡; sparse control signal))に応じて生成をコントロールし、temporal consistencyも向上しているとのこと。
関連:
- [Paper Note] SpatialTracker: Tracking Any 2D Pixels in 3D Space, Yuxi Xiao+, CVPR'24, 2024.04
- [Paper Note] Diffusion as Shader: 3D-aware Video Diffusion for Versatile Video Generation Control, Zekai Gu+, SIGGRAPH'25, 2025.01
- [Paper Note] Video Depth Anything: Consistent Depth Estimation for Super-Long Videos, Sili Chen+, CVPR'25 Highlight, 2025.01
[Paper Note] Diffusion Transformers with Representation Autoencoders, Boyang Zheng+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#ComputerVision #Transformer #DiffusionModel #TextToImageGeneration #Selected Papers/Blogs #2D (Image) #One-Line Notes #ImageSynthesis #AutoEncoder Issue Date: 2025-12-17 GPT Summary- 本研究では、従来のVAEエンコーダを事前学習された表現エンコーダに置き換えた表現オートエンコーダ(RAE)を提案し、生成モデルの品質向上を目指す。RAEは高品質な再構成と意味的に豊かな潜在空間を提供し、拡散トランスフォーマーの効果的な機能を可能にする。実験により、ImageNetで優れた画像生成結果を達成し、RAEが拡散トランスフォーマーの新しいデフォルトとなるべきことを示した。 Comment
openreview: https://openreview.net/forum?id=0u1LigJaab
pj page: https://rae-dit.github.io
encoderをSigLIPなどの強力な(frozenした)vision encoderを用いた上で、デコーダを学習する手法。VAEではCNN等で潜在表現を低次元に圧縮するが、表現力に乏しく結果的に意味的な表現を捉える能力に乏しかったが、より強力な事前学習されたエンコーダと高次元の潜在表現を扱うことでDiffusion Modelで扱う潜在表現を進化させる。
[Paper Note] SVG-T2I: Scaling Up Text-to-Image Latent Diffusion Model Without Variational Autoencoder, Minglei Shi+, arXiv'25, 2025.12
Paper/Blog Link My Issue
#ComputerVision #DiffusionModel #TextToImageGeneration #Self-SupervisedLearning #FlowMatching Issue Date: 2025-12-17 GPT Summary- 視覚生成のためにSVG-T2Iフレームワークを提案し、VFM特徴ドメイン内で高品質なテキストから画像への合成を実現。標準的な拡散パイプラインを用いて競争力のある性能を達成し、GenEvalで0.75、DPG-Benchで85.78を記録。プロジェクトはオープンソース化され、視覚生成に関する研究を促進。 Comment
HF: https://huggingface.co/KlingTeam/SVG-T2I
元ポスト:
先行研究:
- [Paper Note] Latent Diffusion Model without Variational Autoencoder, Minglei Shi+, arXiv'25, 2025.10
- [Paper Note] Diffusion Transformers with Representation Autoencoders, Boyang Zheng+, arXiv'25, 2025.10
言語モデルの内部機序:解析と解釈, HEINZERLING+, NLP'25, 2025.03
Paper/Blog Link My Issue
#Tutorial #Analysis #NLP #LanguageModel #Slide #Selected Papers/Blogs Issue Date: 2025-10-07 Comment
元ポスト:
[Paper Note] Kimi-Dev: Agentless Training as Skill Prior for SWE-Agents, Zonghan Yang+, arXiv'25, 2025.09
Paper/Blog Link My Issue
#NLP #LanguageModel #Supervised-FineTuning (SFT) #AIAgents #SoftwareEngineering #read-later #Selected Papers/Blogs #KeyPoint Notes #Author Thread-Post Issue Date: 2025-10-02 GPT Summary- 大規模言語モデル(LLMs)のソフトウェア工学(SWE)への応用が進んでおり、SWE-benchが重要なベンチマークとなっている。マルチターンのSWE-Agentフレームワークと単一ターンのエージェントレス手法は相互排他的ではなく、エージェントレストレーニングが効率的なSWE-Agentの適応を可能にする。本研究では、Kimi-DevというオープンソースのSWE LLMを紹介し、SWE-bench Verifiedで60.4%を達成。追加の適応により、Kimi-DevはSWE-Agentの性能を48.6%に引き上げ、移植可能なコーディングエージェントの実現を示した。 Comment
元ポスト:
Agentlessはこちら:
- [Paper Note] Demystifying LLM-based Software Engineering Agents, Chunqiu Steven Xia+, FSE'25, 2024.07
著者ポスト:
ポストの中でOpenhandsが同モデルを内部で検証し、Openhandsの環境内でSWE Bench Verifiedで評価した結果、レポート内で報告されているAcc. 60.4%は達成できず、17%に留まることが報告されていた模様。
Openhandsの説明によるとAgentlessは決められた固定されたワークフローのみを実施する枠組み(Kimi Devの場合はBugFixerとFileEditor)であり、ワークフローで定義されたタスクは効果的に実施できるが、それら以外のタスクはそもそもうまくできない。SWE Agent系のベンチのバグfixの方法は大きく分けてAgentlike(コードベースを探索した上でアクションを実行する形式)、Fixed workflow like Agentless(固定されたワークフローのみを実行する形式)の2種類があり、Openhandsは前者、Kimi Devは後者の位置付けである。
実際、テクニカルレポートのFigure2とAppendixを見ると、File Localization+BugFixer+TestWriterを固定されたプロンプトテンプレートを用いてmid-trainingしており、評価する際も同様のハーネスが利用されていると推察される(どこかに明示的な記述があるかもしれない)。
一方、Openhandsではより実環境の開発フローに近いハーネス(e.g., エージェントがコードベースを確認してアクションを提案→実行可能なアクションなら実行→そうでないならユーザからのsimulated responceを受け取る→Agentに結果をフィードバック→エージェントがアクション提案...)といったハーネスとなっている。
このように評価をする際のハーネスが異なるため、同じベンチマークに対して異なる性能が報告される、ということだと思われる。
単にSWE Bench VerifiedのAcc.だけを見てモデルを選ぶのではなく、評価された際のEvaluation Harnessが自分たちのユースケースに合っているかを確認することが重要だと考えられる。
参考:
- OpenhandsのEvaluation Harness:
https://docs.all-hands.dev/openhands/usage/developers/evaluation-harness
[Paper Note] Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens, Chengshuai Zhao+, arXiv'25
Paper/Blog Link My Issue
#Analysis #NLP #Chain-of-Thought #Reasoning #read-later Issue Date: 2025-08-27 GPT Summary- Chain-of-Thought (CoT) プロンプティングはLLMの性能向上に寄与するが、その深さには疑問が残る。本研究では、CoT推論が訓練データの構造的バイアスを反映しているかを調査し、訓練データとテストクエリの分布不一致がその効果に与える影響を分析。DataAlchemyという制御環境を用いて、CoT推論の脆弱性を明らかにし、一般化可能な推論の達成に向けた課題を強調する。
[Paper Note] Physics of Language Models: Part 2.1, Grade-School Math and the Hidden Reasoning Process, Tian Ye+, ICLR'25
Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #ICLR #read-later Issue Date: 2025-08-11 GPT Summary- 言語モデルの数学的推論能力を研究し、GSM8Kベンチマークでの精度向上のメカニズムを探る。具体的には、推論スキルの発展、隠れたプロセス、人間との違い、必要なスキルの超越、推論ミスの原因、モデルのサイズや深さについての実験を行い、LLMの理解を深める洞察を提供。 Comment
openreview: https://openreview.net/forum?id=Tn5B6Udq3E
小学生向けの算数の問題を通じて、以下の基本的なResearch Questionsについて調査して研究。これらを理解することで、言語モデルの知能を理解する礎とする。
## Research Questions
- 言語モデルはどのようにして小学校レベルの算数の問題を解けるようになるのか?
- 単にテンプレートを暗記しているだけなのか、それとも人間に似た推論スキルを学んでいるのか?
- あるいは、その問題を解くために新しいスキルを発見しているのか?
- 小学校レベルの算数問題だけで訓練されたモデルは、それらの問題を解くことしか学ばないのか?
- それとも、より一般的な知能を学習するのか?
- どのくらい小さい言語モデルまで、小学校レベルの算数問題を解けるのか?
- 深さ(層の数)は幅(層ごとのニューロン数)より重要なのか?
- それとも、単にサイズだけが重要か?
(続きはのちほど...)
[Paper Note] Rethinking the Role of Prompting Strategies in LLM Test-Time Scaling: A Perspective of Probability Theory, Yexiang Liu+, ACL'25 Outstanding Paper
Paper/Blog Link My Issue
#Analysis #NLP #LanguageModel #Prompting #ACL #read-later #MajorityVoting Issue Date: 2025-08-03 GPT Summary- 本研究では、LLMのテスト時の計算スケーリングにおけるプロンプト戦略の効果を調査。6つのLLMと8つのプロンプト戦略を用いた実験により、複雑なプロンプト戦略が単純なChain-of-Thoughtに劣ることを示し、理論的な証明を提供。さらに、スケーリング性能を予測し最適なプロンプト戦略を特定する手法を提案し、リソース集約的な推論プロセスの必要性を排除。複雑なプロンプトの再評価と単純なプロンプト戦略の潜在能力を引き出すことで、テスト時のスケーリング性能向上に寄与することを目指す。 Comment
non-thinkingモデルにおいて、Majority Voting (i.e. Self Consistency)によるtest-time scalingを実施する場合のさまざまなprompting戦略のうち、budgetとサンプリング数が小さい場合はCoT以外の適切なprompting戦略はモデルごとに異なるが、budgetやサンプリング数が増えてくるとシンプルなCoT(実験ではzeroshot CoTを利用)が最適なprompting戦略として支配的になる、という話な模様。
さらに、なぜそうなるかの理論的な分析と最適な与えられた予算から最適なprompting戦略を予測する手法も提案している模様。
が、評価データの難易度などによってこの辺は変わると思われ、特にFigure39に示されているような、**サンプリング数が増えると簡単な問題の正解率が上がり、逆に難しい問題の正解率が下がるといった傾向があり、CoTが簡単な問題にサンプリング数を増やすと安定して正解できるから支配的になる**、という話だと思われるので、常にCoTが良いと勘違いしない方が良さそうだと思われる。たとえば、**解こうとしているタスクが難問ばかりであればCoTでスケーリングするのが良いとは限らない、といった点には注意が必要**だと思うので、しっかり全文読んだ方が良い。時間がある時に読みたい(なかなかまとまった時間取れない)
最適なprompting戦略を予測する手法では、
- 問題の難易度に応じて適応的にスケールを変化させ(なんとO(1)で予測ができる)
- 動的に最適なprompting戦略を選択
することで、Majority@10のAcc.を8Bスケールのモデルで10--50%程度向上させることができる模様。いやこれほんとしっかり読まねば。
RL Scaling Laws for LLMs, CAMERON R. WOLFE, PH.D., 2026.04
Paper/Blog Link My Issue
#Article #Tutorial #Pretraining #NLP #LanguageModel #ReinforcementLearning #Scaling Laws #PostTraining Issue Date: 2026-04-20 Comment
元ポスト:
Defeating the trainer-generator precision mismatch in TRL, HuggingFace, 2026.04
Paper/Blog Link My Issue
#Article #Tutorial #NLP #LanguageModel #ReinforcementLearning #PostTraining #Selected Papers/Blogs #train-inference-gap #LowPrecision #Author Thread-Post Issue Date: 2026-04-20 Comment
元ポスト:
関連:
- Making RL Fast, Finbarr Timbers, 2026.04
こーーれは必読では
Making RL Fast, Finbarr Timbers, 2026.04
Paper/Blog Link My Issue
#Article #EfficiencyImprovement #NLP #LanguageModel #ReinforcementLearning #SoftwareEngineering #PostTraining #Selected Papers/Blogs #Initial Impression Notes #Asynchronous Issue Date: 2026-04-07 Comment
元ポスト:
Olmo3においてpost-trainingのインフラを同期から非同期に変更したことを含めて4倍高速化したことに関して、それをどのように実現したかに関するwrite up。気になる。
How Kimi, Cursor, and Chroma Train Agentic Models with RL, PHILSCHMID, 2026.03
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #ReinforcementLearning #AIAgents #Blog #read-later #LongHorizon Issue Date: 2026-03-29
Recursive Language Models: the paradigm of 2026, PRIME Intellect, 2026.01
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Blog #LongSequence #read-later #Selected Papers/Blogs #RecursiveModels #ContextRot Issue Date: 2026-01-02 Comment
関連研究:
- [Paper Note] Recursive Language Models, Alex L. Zhang+, arXiv'25, 2025.12
- Context Rot: How Increasing Input Tokens Impacts LLM Performance, CHROMA TECHNICAL REPORT, 2025.07
- [Paper Note] Scaling Long-Horizon LLM Agent via Context-Folding, Weiwei Sun+, arXiv'25, 2025.10
- [Paper Note] AgentFold: Long-Horizon Web Agents with Proactive Context Management, Rui Ye+, arXiv'25, 2025.10
- [Paper Note] Agentic Context Engineering: Evolving Contexts for Self-Improving
Language Models, Qizheng Zhang+, arXiv'25, 2025.10
Performance Hints, Jeff Dean+, 2025.12
Paper/Blog Link My Issue
#Article #EfficiencyImprovement #Coding #SoftwareEngineering #Selected Papers/Blogs Issue Date: 2025-12-21 Comment
元ポスト:
深層強化学習アルゴリズムまとめ, Shion Honda, 2020.09
Paper/Blog Link My Issue
#Article #Tutorial #MachineLearning #ReinforcementLearning #Selected Papers/Blogs Issue Date: 2025-12-14
Why Training MoEs is So Hard, _xjdr, X Post
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #SmallModel #Post #MoE(Mixture-of-Experts) #read-later Issue Date: 2025-12-08
生成AI革命の最前線:拡散を超える「流れ」の思想とMambaの台頭, laughman-ai, 2025.10
Paper/Blog Link My Issue
#Article #ComputerVision #Blog #FlowMatching #RectifiedFlow #FlowMaps Issue Date: 2025-11-28
Unlocking On-Policy Distillation for Any Model Family, Patiño+, HuggingFace, 2025.10
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Library #ReinforcementLearning #Blog #Distillation #On-Policy Issue Date: 2025-10-30 Comment
元ポスト:
- Unlocking On-Policy Distillation for Any Model Family, Patiño+, HuggingFace, 2025.10
で提案されている手法拡張してトークナイザが異なるモデル間でもオンポリシーRLを用いてknowledge distillationを実現できるようなGKD trainerがTRLに実装されたとのこと。
AIエージェントのためのコンテキストエンジニアリング:Manus構築から得た教訓, Manus AI, 2025.07
Paper/Blog Link My Issue
#Article #NLP #AIAgents #Blog #ContextEngineering Issue Date: 2025-10-28 Comment
元ポスト:
KV Cacheのhit率がまず重要で、TTFTの速さと、コストの双方に影響する。1トークンでも異なるとCacheがhitしなくなるので、注意を払う。たとえば、Contextのfeedが決定論的であることを確認し、prompt冒頭にタイムスタンプを含めるなどは避ける。セルフホスティングの場合はルーティングによってCacheが働くように共通のワーカーを一貫して使う。
How to scale RL, NATHAN LAMBERT, 2025.10
Paper/Blog Link My Issue
#Article #NLP #ReinforcementLearning #Blog #Scaling Laws #read-later #Selected Papers/Blogs Issue Date: 2025-10-21 Comment
元ポスト:
下記研究の内容を解説している。
- [Paper Note] The Art of Scaling Reinforcement Learning Compute for LLMs, Devvrit Khatri+, arXiv'25, 2025.10
事前学習におけるスケーリング測は大規模な事前学習実行時の最適な設定の選択に関するもの(e.g. chinchilla law)だったが、RL(=特定のベースモデルから最大限の性能を引き出すための手法)のスケーリング則においてはどのアルゴリズムをより長期間実行させるかという選択に焦点を当てている。
(後で続きを読む)
RL Scaling Laws for Mathematical Reasoning, Joan Cabezas, 2025.10
Paper/Blog Link My Issue
#Article #Analysis #MachineLearning #NLP #ReinforcementLearning #Repository #Mathematics #Scaling Laws #read-later #One-Line Notes Issue Date: 2025-10-11 Comment
元ポスト:
Qwen3をGSM8KでRL Finetuningしたらパラメータ数が小さいモデルは大きなgainを得たが、パラメータが大きいモデルはそれほどでもなかったので、パラメータ数が大きいほどスケールするわけではなく(むしろ恩恵が小さくなる)、かつ報酬をstrictにするとQwenは指示追従能力がないことで学習が全然進まなかった(柔軟なものにしたらそうではなかったので適切な報酬が重要)、GSM8KでRL FinetuninpしたモデルのreasoningはMMLUに転移しなかったので、RL Finetuningは学習データとして与えたドメインのパターンを学習しているだけなのではないか、みたいな話がポストに記述されている。
AI2のResearcherからの所見:
元の話とこの辺をしっかり読み解いたらとても勉強になりそうな予感👀
Scaling Laws系の研究:
- [Paper Note] Training Compute-Optimal Large Language Models, Jordan Hoffmann+, NeurIPS'22, 2022.03
- [Paper Note] Scaling Laws for Neural Language Models, Jared Kaplan+, arXiv'20, 2020.01
- [Paper Note] Scaling Data-Constrained Language Models, Niklas Muennighoff+, NeurIPS'23
- [Paper Note] Scaling Laws for Autoregressive Generative Modeling, Tom Henighan+, arXiv'20, 2020.10
- Scaling Laws for Value-Based RL, Fu+, 2025.09
(RL関連)
- [Paper Note] Bayesian scaling laws for in-context learning, Aryaman Arora+, COLM'25, 2024.10
(ICL関連)
画像とかData Mixture, MoEなど他にも色々あるが、一旦上記らへんと元ポスト・AI2からの所見を読み解いたらどういったものが見えてくるだろうか?(全部読んでじっくり考えたいけど時間が無いので...)一旦GPTにきいてみよう
GPTにきいてみた(私は無課金勢だがthinking timeが挟まれたのとデコーディング速度の適度な遅さと、limitに到達しましたというメッセージがなかったことから鑑みるに、以下はGPT-5によって回答されていると考えられる)
https://chatgpt.com/share/68ec5024-83fc-8006-b8c6-14060191fb91
RLのScaling Lawsに関する研究がでました:
- [Paper Note] The Art of Scaling Reinforcement Learning Compute for LLMs, Devvrit Khatri+, arXiv'25, 2025.10
