readingに関する論文・技術記事メモの一覧

reading

[Paper Note] LongVie 2: Multimodal Controllable Ultra-Long Video World Model, Jianxiong Gao+, arXiv'25, 2025.12

Paper/Blog Link My Issue
#ComputerVision #Pocket #MultiModal #DiffusionModel #LongSequence #VideoGeneration/Understandings #WorldModels #4D (Video) #One-Line Notes #DepthEstimation Issue Date: 2025-12-21 GPT Summary- LongVie 2は、動画生成システムに基づくワールドモデルで、制御可能性、視覚品質、時間的一貫性を向上させるために3段階で訓練される自己回帰フレームワークです。マルチモーダルガイダンス、劣化認識トレーニング、歴史的コンテキストガイダンスを用いて、長距離制御と高い視覚忠実度を実現。LongVGenBenchを導入し、100本の高解像度動画を用いたベンチマークを提供。実験により、最先端の性能を達成し、連続動画生成の可能性を示しました。 Comment

pj page: https://vchitect.github.io/LongVie2-project/

元ポスト:

Loading…

最大5分間のlong videoの生成が可能で、マルチモーダルな入力（depth map（空間の構造の制御; dense control signal）, point map(キーポイントの時間軸での軌跡; sparse control signal）)に応じて生成をコントロールし、temporal consistencyも向上しているとのこと。

[Paper Note] Diffusion Transformers with Representation Autoencoders, Boyang Zheng+, arXiv'25, 2025.10

Paper/Blog Link My Issue
#ComputerVision #Pocket #Transformer #DiffusionModel #Encoder #2D (Image) Issue Date: 2025-12-17 GPT Summary- 本研究では、従来のVAEエンコーダを事前学習された表現エンコーダに置き換えた表現オートエンコーダ（RAE）を提案し、生成モデルの品質向上を目指す。RAEは高品質な再構成と意味的に豊かな潜在空間を提供し、拡散トランスフォーマーの効果的な機能を可能にする。実験により、ImageNetで優れた画像生成結果を達成し、RAEが拡散トランスフォーマーの新しいデフォルトとなるべきことを示した。 Comment

openreview: https://openreview.net/forum?id=0u1LigJaab

[Paper Note] SVG-T2I: Scaling Up Text-to-Image Latent Diffusion Model Without Variational Autoencoder, Minglei Shi+, arXiv'25, 2025.12

Paper/Blog Link My Issue
#ComputerVision #Pocket #DiffusionModel #TextToImageGeneration #Self-SupervisedLearning #FlowMatching Issue Date: 2025-12-17 GPT Summary- 視覚生成のためにSVG-T2Iフレームワークを提案し、VFM特徴ドメイン内で高品質なテキストから画像への合成を実現。標準的な拡散パイプラインを用いて競争力のある性能を達成し、GenEvalで0.75、DPG-Benchで85.78を記録。プロジェクトはオープンソース化され、視覚生成に関する研究を促進。 Comment

HF: https://huggingface.co/KlingTeam/SVG-T2I

元ポスト:

Loading…

先行研究:
- [Paper Note] Latent Diffusion Model without Variational Autoencoder, Minglei Shi+, arXiv'25, 2025.10
- [Paper Note] Diffusion Transformers with Representation Autoencoders, Boyang Zheng+, arXiv'25, 2025.10

言語モデルの内部機序：解析と解釈, HEINZERLING+, NLP'25, 2025.03

Paper/Blog Link My Issue
#Tutorial #Analysis #NLP #LanguageModel #Slide #Selected Papers/Blogs Issue Date: 2025-10-07 Comment

元ポスト:

Loading…

[Paper Note] Kimi-Dev: Agentless Training as Skill Prior for SWE-Agents, Zonghan Yang+, arXiv'25, 2025.09

Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) #AIAgents #SoftwareEngineering #read-later #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2025-10-02 GPT Summary- 大規模言語モデル（LLMs）のソフトウェア工学（SWE）への応用が進んでおり、SWE-benchが重要なベンチマークとなっている。マルチターンのSWE-Agentフレームワークと単一ターンのエージェントレス手法は相互排他的ではなく、エージェントレストレーニングが効率的なSWE-Agentの適応を可能にする。本研究では、Kimi-DevというオープンソースのSWE LLMを紹介し、SWE-bench Verifiedで60.4%を達成。追加の適応により、Kimi-DevはSWE-Agentの性能を48.6%に引き上げ、移植可能なコーディングエージェントの実現を示した。 Comment

元ポスト:

Loading…

Agentlessはこちら:
- [Paper Note] Demystifying LLM-based Software Engineering Agents, Chunqiu Steven Xia+, FSE'25, 2024.07

著者ポスト:

Loading…

ポストの中でOpenhandsが同モデルを内部で検証し、Openhandsの環境内でSWE Bench Verifiedで評価した結果、レポート内で報告されているAcc. 60.4%は達成できず、17%に留まることが報告されていた模様。

Openhandsの説明によるとAgentlessは決められた固定されたワークフローのみを実施する枠組み（Kimi Devの場合はBugFixerとFileEditor)であり、ワークフローで定義されたタスクは効果的に実施できるが、それら以外のタスクはそもそもうまくできない。SWE Agent系のベンチのバグfixの方法は大きく分けてAgentlike（コードベースを探索した上でアクションを実行する形式）、Fixed workflow like Agentless(固定されたワークフローのみを実行する形式）の2種類があり、Openhandsは前者、Kimi Devは後者の位置付けである。

実際、テクニカルレポートのFigure2とAppendixを見ると、File Localization+BugFixer+TestWriterを固定されたプロンプトテンプレートを用いてmid-trainingしており、評価する際も同様のハーネスが利用されていると推察される（どこかに明示的な記述があるかもしれない）。
一方、Openhandsではより実環境の開発フローに近いハーネス（e.g., エージェントがコードベースを確認してアクションを提案→実行可能なアクションなら実行→そうでないならユーザからのsimulated responceを受け取る→Agentに結果をフィードバック→エージェントがアクション提案...）といったハーネスとなっている。

このように評価をする際のハーネスが異なるため、同じベンチマークに対して異なる性能が報告される、ということだと思われる。

単にSWE Bench VerifiedのAcc.だけを見てモデルを選ぶのではなく、評価された際のEvaluation Harnessが自分たちのユースケースに合っているかを確認することが重要だと考えられる。

参考:

- OpenhandsのEvaluation Harness: https://docs.all-hands.dev/openhands/usage/developers/evaluation-harness

[Paper Note] Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens, Chengshuai Zhao+, arXiv'25

Paper/Blog Link My Issue
#Analysis #Pocket #NLP #Chain-of-Thought #Reasoning #read-later Issue Date: 2025-08-27 GPT Summary- Chain-of-Thought (CoT) プロンプティングはLLMの性能向上に寄与するが、その深さには疑問が残る。本研究では、CoT推論が訓練データの構造的バイアスを反映しているかを調査し、訓練データとテストクエリの分布不一致がその効果に与える影響を分析。DataAlchemyという制御環境を用いて、CoT推論の脆弱性を明らかにし、一般化可能な推論の達成に向けた課題を強調する。

[Paper Note] Physics of Language Models: Part 2.1, Grade-School Math and the Hidden Reasoning Process, Tian Ye+, ICLR'25

Paper/Blog Link My Issue
#Analysis #Pocket #NLP #LanguageModel #ICLR #read-later Issue Date: 2025-08-11 GPT Summary- 言語モデルの数学的推論能力を研究し、GSM8Kベンチマークでの精度向上のメカニズムを探る。具体的には、推論スキルの発展、隠れたプロセス、人間との違い、必要なスキルの超越、推論ミスの原因、モデルのサイズや深さについての実験を行い、LLMの理解を深める洞察を提供。 Comment

openreview: https://openreview.net/forum?id=Tn5B6Udq3E

解説:
- 言語モデルの物理学, 佐藤竜馬, 2025.03

小学生向けの算数の問題を通じて、以下の基本的なResearch Questionsについて調査して研究。これらを理解することで、言語モデルの知能を理解する礎とする。

## Research Questions
- 言語モデルはどのようにして小学校レベルの算数の問題を解けるようになるのか？
- 単にテンプレートを暗記しているだけなのか、それとも人間に似た推論スキルを学んでいるのか？
- あるいは、その問題を解くために新しいスキルを発見しているのか？
- 小学校レベルの算数問題だけで訓練されたモデルは、それらの問題を解くことしか学ばないのか？
- それとも、より一般的な知能を学習するのか？
- どのくらい小さい言語モデルまで、小学校レベルの算数問題を解けるのか？
- 深さ（層の数）は幅（層ごとのニューロン数）より重要なのか？
- それとも、単にサイズだけが重要か？

（続きはのちほど...）

[Paper Note] Rethinking the Role of Prompting Strategies in LLM Test-Time Scaling: A Perspective of Probability Theory, Yexiang Liu+, ACL'25 Outstanding Paper

Paper/Blog Link My Issue
#Analysis #Pocket #NLP #LanguageModel #Prompting #ACL #read-later #MajorityVoting Issue Date: 2025-08-03 GPT Summary- 本研究では、LLMのテスト時の計算スケーリングにおけるプロンプト戦略の効果を調査。6つのLLMと8つのプロンプト戦略を用いた実験により、複雑なプロンプト戦略が単純なChain-of-Thoughtに劣ることを示し、理論的な証明を提供。さらに、スケーリング性能を予測し最適なプロンプト戦略を特定する手法を提案し、リソース集約的な推論プロセスの必要性を排除。複雑なプロンプトの再評価と単純なプロンプト戦略の潜在能力を引き出すことで、テスト時のスケーリング性能向上に寄与することを目指す。 Comment

non-thinkingモデルにおいて、Majority Voting (i.e. Self Consistency)によるtest-time scalingを実施する場合のさまざまなprompting戦略のうち、budgetとサンプリング数が小さい場合はCoT以外の適切なprompting戦略はモデルごとに異なるが、budgetやサンプリング数が増えてくるとシンプルなCoT（実験ではzeroshot CoTを利用）が最適なprompting戦略として支配的になる、という話な模様。

さらに、なぜそうなるかの理論的な分析と最適な与えられた予算から最適なprompting戦略を予測する手法も提案している模様。

が、評価データの難易度などによってこの辺は変わると思われ、特にFigure39に示されているような、**サンプリング数が増えると簡単な問題の正解率が上がり、逆に難しい問題の正解率が下がるといった傾向があり、CoTが簡単な問題にサンプリング数を増やすと安定して正解できるから支配的になる**、という話だと思われるので、常にCoTが良いと勘違いしない方が良さそうだと思われる。たとえば、**解こうとしているタスクが難問ばかりであればCoTでスケーリングするのが良いとは限らない、といった点には注意が必要**だと思うので、しっかり全文読んだ方が良い。時間がある時に読みたい（なかなかまとまった時間取れない）

最適なprompting戦略を予測する手法では、
- 問題の難易度に応じて適応的にスケールを変化させ(なんとO(1)で予測ができる)
- 動的に最適なprompting戦略を選択

することで、Majority@10のAcc.を8Bスケールのモデルで10--50%程度向上させることができる模様。いやこれほんとしっかり読まねば。

Recursive Language Models: the paradigm of 2026, PRIME Intellect, 2026.01

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Blog #LongSequence #read-later #Selected Papers/Blogs #RecursiveModels #ContextRot Issue Date: 2026-01-02 Comment

Performance Hints, Jeff Dean+, 2025.12

Paper/Blog Link My Issue
#Article #EfficiencyImprovement #Coding #SoftwareEngineering #Selected Papers/Blogs Issue Date: 2025-12-21 Comment

元ポスト:

Loading…

Unlocking On-Policy Distillation for Any Model Family, Patiño+, HuggingFace, 2025.10

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Library #ReinforcementLearning #Blog #Distillation #On-Policy Issue Date: 2025-10-30 Comment

元ポスト:

Loading…

- Unlocking On-Policy Distillation for Any Model Family, Patiño+, HuggingFace, 2025.10

で提案されている手法拡張してトークナイザが異なるモデル間でもオンポリシーRLを用いてknowledge distillationを実現できるようなGKD trainerがTRLに実装されたとのこと。

AIエージェントのためのコンテキストエンジニアリング：Manus構築から得た教訓, Manus AI, 2025.07

Paper/Blog Link My Issue
#Article #NLP #AIAgents #Blog #ContextEngineering Issue Date: 2025-10-28 Comment

元ポスト:

Loading…

KV Cacheのhit率がまず重要で、TTFTの速さと、コストの双方に影響する。1トークンでも異なるとCacheがhitしなくなるので、注意を払う。たとえば、Contextのfeedが決定論的であることを確認し、prompt冒頭にタイムスタンプを含めるなどは避ける。セルフホスティングの場合はルーティングによってCacheが働くように共通のワーカーを一貫して使う。

How to scale RL, NATHAN LAMBERT, 2025.10

Paper/Blog Link My Issue
#Article #NLP #ReinforcementLearning #Blog #Scaling Laws #read-later #Selected Papers/Blogs Issue Date: 2025-10-21 Comment

元ポスト:

Loading…

下記研究の内容を解説している。
- [Paper Note] The Art of Scaling Reinforcement Learning Compute for LLMs, Devvrit Khatri+, arXiv'25, 2025.10

事前学習におけるスケーリング測は大規模な事前学習実行時の最適な設定の選択に関するもの（e.g. chinchilla law）だったが、RL（=特定のベースモデルから最大限の性能を引き出すための手法）のスケーリング則においてはどのアルゴリズムをより長期間実行させるかという選択に焦点を当てている。

（後で続きを読む）

RL Scaling Laws for Mathematical Reasoning, Joan Cabezas, 2025.10

Paper/Blog Link My Issue
#Article #Analysis #MachineLearning #NLP #ReinforcementLearning #Repository #Mathematics #Scaling Laws #read-later #One-Line Notes Issue Date: 2025-10-11 Comment

元ポスト:

Loading…

Qwen3をGSM8KでRL Finetuningしたらパラメータ数が小さいモデルは大きなgainを得たが、パラメータが大きいモデルはそれほどでもなかったので、パラメータ数が大きいほどスケールするわけではなく（むしろ恩恵が小さくなる）、かつ報酬をstrictにするとQwenは指示追従能力がないことで学習が全然進まなかった（柔軟なものにしたらそうではなかったので適切な報酬が重要）、GSM8KでRL FinetuninpしたモデルのreasoningはMMLUに転移しなかったので、RL Finetuningは学習データとして与えたドメインのパターンを学習しているだけなのではないか、みたいな話がポストに記述されている。

AI2のResearcherからの所見:

Loading…

元の話とこの辺をしっかり読み解いたらとても勉強になりそうな予感👀

Scaling Laws系の研究:
- Training Compute-Optimal Large Language Models, Jordan Hoffmann+, NeurIPS'22
- Scaling Laws for Neural Language Models, Jared Kaplan+, arXiv'20
- Scaling Data-Constrained Language Models, Niklas Muennighoff+, NeurIPS'23
- Scaling Laws for Autoregressive Generative Modeling, Tom Henighan+, arXiv'20
- Scaling Laws for Value-Based RL, Fu+, 2025.09 (RL関連)
- [Paper Note] Bayesian scaling laws for in-context learning, Aryaman Arora+, COLM'25, 2024.10 (ICL関連)

画像とかData Mixture, MoEなど他にも色々あるが、一旦上記らへんと元ポスト・AI2からの所見を読み解いたらどういったものが見えてくるだろうか？（全部読んでじっくり考えたいけど時間が無いので...）一旦GPTにきいてみよう

GPTにきいてみた（私は無課金勢だがthinking timeが挟まれたのとデコーディング速度の適度な遅さと、limitに到達しましたというメッセージがなかったことから鑑みるに、以下はGPT-5によって回答されていると考えられる）
https://chatgpt.com/share/68ec5024-83fc-8006-b8c6-14060191fb91

RLのScaling Lawsに関する研究がでました:
- [Paper Note] The Art of Scaling Reinforcement Learning Compute for LLMs, Devvrit Khatri+, arXiv'25, 2025.10

reading

[Paper Note] LongVie 2: Multimodal Controllable Ultra-Long Video World Model, Jianxiong Gao+, arXiv'25, 2025.12

[Paper Note] Diffusion Transformers with Representation Autoencoders, Boyang Zheng+, arXiv'25, 2025.10

[Paper Note] SVG-T2I: Scaling Up Text-to-Image Latent Diffusion Model Without Variational Autoencoder, Minglei Shi+, arXiv'25, 2025.12

言語モデルの内部機序：解析と解釈, HEINZERLING+, NLP'25, 2025.03

[Paper Note] Kimi-Dev: Agentless Training as Skill Prior for SWE-Agents, Zonghan Yang+, arXiv'25, 2025.09

[Paper Note] Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens, Chengshuai Zhao+, arXiv'25

[Paper Note] Physics of Language Models: Part 2.1, Grade-School Math and the Hidden Reasoning Process, Tian Ye+, ICLR'25

[Paper Note] Rethinking the Role of Prompting Strategies in LLM Test-Time Scaling: A Perspective of Probability Theory, Yexiang Liu+, ACL'25 Outstanding Paper

Recursive Language Models: the paradigm of 2026, PRIME Intellect, 2026.01

Performance Hints, Jeff Dean+, 2025.12

深層強化学習アルゴリズムまとめ, Shion Honda, 2020.09

Why Training MoEs is So Hard, _xjdr, X Post

生成AI革命の最前線：拡散を超える「流れ」の思想とMambaの台頭, laughman-ai, 2025.10

Unlocking On-Policy Distillation for Any Model Family, Patiño+, HuggingFace, 2025.10

AIエージェントのためのコンテキストエンジニアリング：Manus構築から得た教訓, Manus AI, 2025.07

How to scale RL, NATHAN LAMBERT, 2025.10

RL Scaling Laws for Mathematical Reasoning, Joan Cabezas, 2025.10