Blog
[Paper Note] Step 3.5 Flash: Open Frontier-Level Intelligence with 11B Active Parameters, Ailin Huang+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#NLP #LanguageModel #Supervised-FineTuning (SFT) #Reasoning #MoE(Mixture-of-Experts) #AttentionSinks #PostTraining #Selected Papers/Blogs #One-Line Notes #Reference Collection #SelfDistillation Issue Date: 2026-02-03 GPT Summary- Step 3.5 Flashは、フロンティア知能と効率を橋渡しするスパースMixture-of-Experts(MoE)モデルで、1960億パラメータの基盤と110億パラメータのアクティブパラメータを組み合わせ、迅速で信頼性の高い推論を実現。交互スライディングウィンドウとMulti-Token Predictionを取り入れ、エージェント間の相互作用の待機時間を短縮。検証可能な信号とフィードバックを用いた強化学習フレームワークにより、安定した自己改善を図る。エージェントやコーディング、数学タスクで高い性能を示し、フロンティアモデルに匹敵する結果を達成している。 Comment
元ポスト:
公式ポスト:
解説:
ポイント解説:
ポイント解説:
固定されたデータ非依存のsink tokenを利用するよりも、attention headの出力にinput xに応じたgatingを設けるHead wise gated attentionの方が各ベンチマークでの性能が良い(Table2, gatingの計算量もほぼ無視できる)。Head wise gated attentionは、データに応じてattention headの出力を制御するため、データ依存のlearnableなsink tokenと解釈できる(A.1):
Head-wise Gated Attention:
- [Paper Note] Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free, Zihan Qiu+, NeurIPS'25 Best Paper
- [Paper Note] Forgetting Transformer: Softmax Attention with a Forget Gate, Zhixuan Lin+, ICLR'25, 2025.03
SFTデータがリリースされたとのこと:
https://huggingface.co/datasets/stepfun-ai/Step-3.5-Flash-SFT
元ポスト:
[Paper Note] Kimi K2.5: Visual Agentic Intelligence, Kimi Team+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#ComputerVision #Pretraining #NLP #Supervised-FineTuning (SFT) #ReinforcementLearning #AIAgents #OpenWeight #mid-training #PostTraining #read-later #Selected Papers/Blogs #VisionLanguageModel #UMM #KeyPoint Notes #Reference Collection #Initial Impression Notes #ContextFolding Issue Date: 2026-01-27 GPT Summary- Kimi K2.5は、テキストとビジョンの共同最適化を重視するオープンソースのマルチモーダルエージェンティックモデルです。共同プリアトレーニングや強化学習を用いて、エージェントが複雑なタスクをサブ問題に分解し同時に実行するAgent Swarmを導入。評価結果では、コーディングや推論タスクで最先端の成果を達成し、最大4.5倍のレイテンシ低減を実証しました。Kimi K2.5モデルのチェックポイントは、今後の研究や応用に活用可能です。 Comment
HF: https://huggingface.co/moonshotai/Kimi-K2.5
元ポスト:
テクニカルレポートを受けての所見:
Agenticなタスク(HLE, BrowsingによるQA, DeepSearch)に関するベンチでGPT-5.2(xhigh)などを超えてSoTAを達成。他のタスクではcodingではClaude-4.5-Opusの方が上、image関連のタスクではGemini 3 Proに軍配が上がっている。VideoではGeminiとcomparableという感じだろうか(GeminiはLong Contextに非常に強い印象があるがLongVideoBenchて上回っている)。この辺は各タスクごとに強いモデルの棲み分けが進んできた。
また、Kimi K2.5非常に美麗でinteractiveなフロントエンドのデモが掲載されている。
Agent Swarmは、タスクをサブタスクに分解して、複数のエージェントに並列に投げて実行(最大100 sub agent)できるような枠組みであり、それらが高性能かつ低latencyとなるように訓練れている模様。これにより性能を向上させつつlatencyを80%削減しているとのこと。
この話はContext Foldingに近い話と推察される:
- [Paper Note] Scaling Long-Horizon LLM Agent via Context-Folding, Weiwei Sun+, arXiv'25, 2025.10
How Kimi, Cursor, and Chroma Train Agentic Models with RL, PHILSCHMID, 2026.03
によると、AgentSwarmはサブタスクを実施するエージェントのパラメータはfreezeし、サブエージェントを作成し、その結果を集約する処理をOrchestratorと呼ばれるlearnableなモジュールが担っており、サブエージェントからの結果はある種環境からの観測結果として扱われ、タスクの成否はOrchestratorのみに委ねられているようである。
Context Foldingは、Context Managerとポリシーが同時にFoldGRPOを通じて学習されており、エージェントそのものがサブタスク実行、結果を受け取り圧縮、メインブランチに加えるという能力をContext Managerと協調しながら実施することを学習している点が異なるように感じる。
また、並列実行したCritical Stepと呼ばれる、各サブエージェントの最大ステップ数に関する指標が導入され、これらCritical Stepをすべてのステップで集約し、特定のサブエージェントにworkloadが集中しないようにOrchestratorが調整されるとのこと。
公式ポスト:
OpenWeightモデルの中でソフトウェアエンジニアリングスキルでSoTA:
日本語でのポスト:
ポイント解説:
- How Kimi, Cursor, and Chroma Train Agentic Models with RL, PHILSCHMID, 2026.03
[Paper Note] The Optimal Token Baseline: Variance Reduction for Long-Horizon LLM-RL, Yingru Li+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#NLP #LanguageModel #ReinforcementLearning #AIAgents #PostTraining #read-later #Selected Papers/Blogs #LongHorizon Issue Date: 2025-12-27 GPT Summary- 最適トークンベースライン(OTB)を導出し、勾配更新を累積勾配ノルムに反比例して重み付けすることで、長期タスクにおけるトレーニングの崩壊を軽減。ロジット-勾配プロキシを用いて効率的に勾配ノルムを近似し、単一ターン及びツール統合推論タスクで高い安定性を実現、グループサイズを$N=32$から$N=4$に削減しつつ性能を維持、トークン消費を65%以上削減。 Comment
元ポスト:
[Paper Note] Fara-7B: An Efficient Agentic Model for Computer Use, Ahmed Awadallah+, arXiv'25, 2025.11
Paper/Blog Link My Issue
#AIAgents #SmallModel #OpenWeight #ComputerUse #read-later #Selected Papers/Blogs #One-Line Notes #Author Thread-Post Issue Date: 2025-11-25 GPT Summary- CUAの発展は高品質な相互作用データの欠如に制約されてきた。これに対処するため、FaraGenという多段階ウェブタスク用のデータ生成システムを提案。多様なタスクを生成し、成功した軌跡を検証しつつ高い効率を発揮。FaraGenを用いて、小型CUAモデルFara-7Bを訓練し、ウェブタスクにおいて優れた性能を発揮。Fara-7Bは他のモデルを上回り、競争力のある結果を示す。また、モデルとデータをオープンソース化し、さらなる研究を促進する。 Comment
元ポスト:
computer useに特化したMS初のSLM(CUA)
関連:
- [Paper Note] AgentInstruct: Toward Generative Teaching with Agentic Flows, Arindam Mitra+, arXiv'24, 2024.07
- [Paper Note] Magentic-One: A Generalist Multi-Agent System for Solving Complex Tasks, Adam Fourney+, arXiv'24, 2024.11
- [Paper Note] WebVoyager: Building an End-to-End Web Agent with Large Multimodal Models, Hongliang He+, ACL'24, 2024.01
- [Paper Note] Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V, Jianwei Yang+, arXiv'23, 2023.10
- GPT-4V-Act, ddupont808, 2023.10
WebVoyagerでの評価によると、タスクに対するコスト性能比が非常に高いことがわかる。
MIT Licence
著者ポスト:
WebTailBenchと呼ばれる新たなベンチマークも提案されている。既存データに加えて、より多様なドメイン(不動産, 求人, 複数ショップとの比較)などが含まれるようである。
Identification and Analysis of Identity-Centric Elements of Character-Likeness from Game Scenario, Iwata+, SIGDIAL'25
Paper/Blog Link My Issue
#Analysis #NLP #Game Issue Date: 2025-08-24 Comment
arxivに無さそうなので、概要は元ポスト参照のこと。キャラクターらしさの構成要素とそれらがキャラクターらしさに関してどのように関係しているかを分析した研究な模様。
元ポスト:
[Paper Note] UI-TARS: Pioneering Automated GUI Interaction with Native Agents, Yujia Qin+, arXiv'25, 2025.01
Paper/Blog Link My Issue
#ComputerVision #NLP #AIAgents #MultiModal #Reasoning #OpenWeight #ComputerUse #VisionLanguageModel #2D (Image) #One-Line Notes #text Issue Date: 2025-04-18 GPT Summary- UI-TARSは、スクリーンショットを入力として人間のような操作を行うエンドツーエンドのGUIエージェントモデルである。従来の商用モデルに依存せず、知覚、グラウンディング、GUIタスク実行において最先端の性能を発揮。OSWorldベンチマークでは、UI-TARSが高スコアを達成し、他のモデルを上回る。主要な革新には、強化された知覚、統一されたアクションモデリング、System-2推論、反省的オンライン・トレースによる反復的トレーニングが含まれる。これにより、UI-TARSは未知の状況にも適応可能な学習能力を持つ。GUIエージェントの進化経路も分析し、今後の発展を探る。 Comment
色々と書いてあるが、ざっくり言うとByteDanceによる、ImageとTextをinputとして受け取り、TextをoutputするマルチモーダルLLMによるComputer Use Agent (CUA)
関連
- OpenAI API での Computer use の使い方, npaka, 2025.03
元ポスト:
[Paper Note] Chain of Agents: Large Language Models Collaborating on Long-Context Tasks, Yusen Zhang+, arXiv'24, 2024.06
Paper/Blog Link My Issue
#Multi #NLP #LanguageModel #AIAgents #ContextWindow #NeurIPS #LongHorizon #Initial Impression Notes Issue Date: 2025-01-25 GPT Summary- 長い文脈を処理するために、Chain-of-Agents(CoA)フレームワークを提案。複数のワーカーエージェントが逐次的に情報を集約し、マネージャーエージェントが最終出力を統合。各エージェントに短い文脈を割り当てることで焦点の問題を軽減し、質問応答や要約などのタスクで最大10%の性能向上を実現。 Comment
元ポスト:
LLMがどこまでいってもcontext長の制約に直面する問題に対してLLM Agentを組み合わせて対処しました、的な話な模様
ブログ中にアプローチを解説した動画があるのでわかりやすい
Is the experimental code open source?
Thank you for your comment. I tried to find an official open-source implementation provided by the authors, but I was not able to locate one. In fact, I also checked the personal webpage of the first author, but there was no link to any released code.
Is seems that an unofficial implementation is listed under the “Code” tab on the NeurIPS page. I hope this is helpful. Thank you.
NeurIPS link:
https://nips.cc/virtual/2024/poster/95563
openreview:
https://openreview.net/forum?id=LuCLf4BJsr
[Paper Note] Alignment faking in large language models, Ryan Greenblatt+, arXiv'24, 2024.12
Paper/Blog Link My Issue
#NLP #LanguageModel #Alignment #Safety #read-later Issue Date: 2024-12-19 GPT Summary- 大規模言語モデルがアラインメント・フェイキングを行う様子を示し、訓練中の挙動変更を防ぐために選択的に訓練目的に従うことを提案します。具体的には、Claude 3 Opusが有害な質問に対し、無料ユーザーには14%従う一方で、有料ユーザーにはほとんど従わない傾向を確認。この理由は、無料ユーザーからの質問に対し、アラインメント・フェイキングの推論を通じて望ましい挙動を維持するためです。さらに、合成文書を用いることで同様のアラインメント・フェイキングを観察し、有害な質問に対する強化学習で訓練すると発生率が78%に増加することを発見しました。最終的に、モデルに指示を与えずとも訓練プロセスに基づいて推測する可能性があり、将来のモデルにもリスクが存在することが示唆されます。
Xiaomi MiMo-V2.5-Pro: A leap in agentic and long horizon coherence, Xiaomi, 2026.04
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Coding #OpenWeight Issue Date: 2026-04-23 Comment
元ポスト:
いずれモデルをオープンにするとのこと
プロンプトの再現性をAI に自動チューニングさせる方法 ~ 暗黙知を排除する, mizchi, 2026.04
Paper/Blog Link My Issue
#Article #NLP #AIAgents #Prompting #SoftwareEngineering Issue Date: 2026-04-20 Comment
元ポスト:
The Art of Prompt Design: Prompt Boundaries and Token Healing, Scott Lundberg, 2023.05
Paper/Blog Link My Issue
#Article #Analysis #NLP #LanguageModel #Tokenizer #Selected Papers/Blogs Issue Date: 2026-04-19 Comment
Prompt Boundary Issueと呼ばれる、ユーザのpromptと生成時点の境界を見た時に、ユーザの文字の区切り方と、モデルが持つvocab、およびバイアスによって、期待する出力がうまく得られない現象を解説している。
たとえば、モデルにURLを出力させる際に、'http:'の続きを出力するように指示を出すと、学習データ中に存在するデータは、httpの後は学習時にトークン'://'が続くが、ユーザが':'まで入力してしまうとトークン列としては'http'':'となる。BPEによるtokenizerは1トークンが表現する文字の長さが長くなるようにエンコードするため、':'が見えた時点でこの後に続く単語は、'://'のような典型的な:の後に続く文字列ではないのだなと解釈する。なぜなら、典型的な':'とくっついて表現される文字が続くなら、':'が独立して存在しないはずだから(そういうtokenizeで学習してしまっているから)である。
これに対する対処法として、token healingと呼ばれふ手法が紹介されている。具体的には、生成プロセスをあえて1つ前のトークンから開始し、その代わり、最初にモデルが生成するtokenのprefixがユーザが入力した文字と一致するよう強制するというものである。
AI週報#1 | LLMは「決めてから考える」のか? 他2件, toda, 2026.04
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Author Thread-Post Issue Date: 2026-04-19 Comment
元ポスト:
Gemini 3.1 Flash TTS: the next generation of expressive AI speech, Google, 2026.04
Paper/Blog Link My Issue
#Article #Proprietary #Selected Papers/Blogs #TTS #One-Line Notes Issue Date: 2026-04-17 Comment
元ポスト:
`[sighs]`, `[laughs]`, `[gasp]`, `[cough]`, `[deep and loud]` などのaudio tagで声の調子やトーンなどの非言語的な要素までpromptingでコントロール可能なTTSとのこと(audio tagの定義は任意にできるのだろうか?)。元ポストにサンプルが貼られているが、感情表現が非常に豊かにきこえる。
Evaluating Netflix Show Synopses with LLM-as-a-Judge, Netflix Technology Blog, 2026.04
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Evaluation #Factuality #LLM-as-a-Judge #Test-Time Scaling #read-later #Reference Collection #Scalability #Initial Impression Notes Issue Date: 2026-04-17 Comment
元ポスト:
Netflix上に存在するsynopses(映画の短いdescription)を高品質に保ちたいが、非常に量が多いのでどのようにスケーラブルに評価しているか、という話のようである。
LLM-as-a-Judgeを活用して評価をしており、4種類の観点(制度、事実性、トーン、明瞭さ)のような多次元のRubricを用いて、それぞれの観点ごとにLLM-as-a-Judgeを専門家の判断にalignさせるためにgold dataを作成し、どのように推論すればLLM-as-a-Judgeの性能が向上するかを調査した結果、long CoT / Majority Voting (精度向上+分散低下)/ Agents-as-a-Judge (複数のFactualityの側面を評価するために4種類のAI Agentを用いてメタデータとsynopsesのFactual Consistencyを評価し、全てのエージェントの結果を集約)といった感じのことをやっているらしい。
Our evaluation of Claude Mythos Preview’s cyber capabilities, AISI, 2026.04
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Evaluation #Security #Author Thread-Post Issue Date: 2026-04-15 Comment
元ポスト:
Evaluating agents for scientific discovery, Ai2, 2026.04
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Evaluation #ScientificDiscovery #Science #Surface-level Notes #Reading Reflections #Author Thread-Post Issue Date: 2026-04-14 Comment
元ポスト:
scientific discoveryを実現するエージェントに関して、research paperで主張される素晴らしさと、実態のgapを埋めるためにAi2が実施してきたベンチマークに関する研究についての解説。
- [Paper Note] ScienceWorld: Is your Agent Smarter than a 5th Grader?, Ruoyao Wang+, EMNLP'22, 2022.03
- 小学校レベルの理科の実験をエージェントが実行できるかを評価するベンチマーク
- 教科書に載っているような古典的なdiscoveryを再現させる
- 200種類以上にものぼるオブジェクトが配置された、物理法則に従う(e.g., 氷が加熱すると溶けるなど)シミュレーション世界において、水の沸点を選択肢から正解を選ぶのではなく、自身で発見することを求められる。
- 2022年、Multiple Choice Questionのschool science examでハイスコアを記録したモデルはスコアは10%未満、2025年にはスコアは80%代に到達したが、まだ完全にこなふことができない。
- [Paper Note] DISCOVERYWORLD: A Virtual Environment for Developing and Evaluating Automated Scientific Discovery Agents, Peter Jansen+, NeurIPS'24 Spotlight, 2024.06
- 独自の科学的な調査をスクラッチから設計実行させるベンチマーク
- 大学、あるいはPhDレベルのopen-endなdiscoveryに関する能力を問う
- 宇宙の惑星Xでの最初の科学者として調査を実施する設定で8トピックにわたる120のタスクをこなす必要がある
- 難易度は3段階に分かれていて、タスクは架空のcontextで実施されるため事前知識に頼ることができない中でタスクを解決し、正しいプロセスで実施されたかや、理解をしているかなどの能力も問われる。
- 現在のエージェントは、normal/challengingな難易度のタスク群について、80%の完了率を達成できない
- 双方のベンチマークともに、知識と実務力を分離した上で能力を測定するものとなっており、知識を答えるだけの見かけ上の能力ではなく、スクラッチから知識に基づいてエビデンスを積み上げ、実行し、タスクを遂行し科学的な発見をできるか、という実務力を問うている
という話。
この話は
- Andrej Karpathy — AGI is still a decade away, DWARKESH PATEL, 2025.10
において議論されている「認知コア」と関連が深いと感じる。
認知コアとは、単なる記憶に頼るのではなく、事前学習において、いわゆる人間のような知性を(データ内に潜むアルゴリズム的なパターンを学習することで)獲得し、その結果としてIn context Learningのような能力を発達させることとされ、
既に獲得された知識がモデルの認知コアの発達を阻害し、未知の環境でも適応できるような汎化能力を獲得することを阻害している(=モデルは既存の知識と紐づけて簡単に回答できてしまうため、アルゴリズムに基づいた思考と行動を備える必要がなく学習が進み、結果的に汎用的な能力が身につかない)恐れがある、という話である。
上記ベンチマーク(特にDiscoveryWorld)は既存の世界知識に捉われない、アルゴリズム的な思考と行動が求められると推察されるため、モデルの認知コア的な側面を部分的に測定していると言えると感じる。
Distilling 100B+ Models 40x Faster with TRL, Hugging Face, 2026.04
Paper/Blog Link My Issue
#Article #EfficiencyImprovement #NLP #LanguageModel #Distillation #One-Line Notes #Author Thread-Post Issue Date: 2026-04-13 Comment
元ポスト:
on-policy蒸留(生徒モデルが生成したロールアウトに対して教師モデルが評価を与える方式)を、バッチ処理や、生徒モデルと教師モデルの通信量を削減するためバイナリ形式に変換してやり取りするなどの工夫をして高速化した話とのこと。
著者ポスト:
The advisor strategy: Give agents an intelligence boost Pair Opus as an advisor with Sonnet or Haiku as an executor, and get near Opus-level intelligence in your agents at a fraction of the cost., Anthropic, 2026.04
Paper/Blog Link My Issue
#Article #EfficiencyImprovement #NLP #LanguageModel #AIAgents #One-Line Notes #Reading Reflections Issue Date: 2026-04-11 Comment
元ポスト:
Strong Modelをツールとして登録(Advisor)しておき、意思決定が困難になった場合はstrong modelにレビュー依頼をしてcontextを受け取り実行可能な枠組み。
Sonnetで12パーセント程度省コストで、SWE Bench Multilingual のスコアを2.7%向上、とのこと。
SWE Benchの結果は、Claute Opus 4.6をAdvisorとして利用した旨が脚注に書かれている。
下記システムカードによると、Opus 4.6 の SWE Bench Multilingualのスコアは77.83程度(細かい設定は追えていない)、元ポストのSonnet+Advisorのスコアは74.8%なので、near Opusな性能が出るとポストに記載されているが、そのくらいのgapがあるという点には注意が必要。
https://www-cdn.anthropic.com/6a5fa276ac68b9aeb0c8b6af5fa36326e0e166dd.pdf
The OpenHands Vulnerability Fixer: Automated Security Remediation with AI Agents, Graham Neubig, 2026.03
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #SoftwareEngineering #read-later #Security Issue Date: 2026-04-11 Comment
元ポスト:
ハーネスエンジニアリングのすすめ: 27BモデルでSWE-bench VerifiedのSLM SOTAを達成 (TTS@8=74.8%), Fujitsu Tech Blog, 2026.04
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Test-Time Scaling #SoftwareEngineering #One-Line Notes Issue Date: 2026-04-11 Comment
元ポスト:
Best-of-8 SamplingでSWE Benchのスコアを改善する話
1bit 量子化技術の紹介, Fujitsu Tech Blog, 2025.12
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Library #Quantization #One-Line Notes Issue Date: 2026-04-09 Comment
関連:
- OneCompression, FujitsuResearch, 2026.04
元ポスト:
プレスなので概要のみで、細かい手法については記述されていなかった。が、QEP, QQAと呼ばれるNeurIPS2025, ICLR2025に採択済みのモデルで、それぞれ層を跨いで量子化誤差を伝播させることでエラーの増大を防ぐ手法(任意のbit数に適用可能)、量子力学の量子性に着想を得た大規模最適化問題で高い性能を発揮する手法、とのことのようである。
元ポストの方が技術的な面は詳しく書かれている。
Project Glasswing Securing critical software for the AI era, Anthropic, 2026.04
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Safety #Selected Papers/Blogs #One-Line Notes #Reference Collection #Safeguard #Reading Reflections Issue Date: 2026-04-08 Comment
元ポスト:
Claude Mythos Previewが、ソフトウェアの脆弱性を見つける能力において、トップクラスの人間を除けば、あらゆる人間以上の能力を獲得してしまっており、これがサイバーセキュリティの概念を根本的に変化させてしまう危険がある。
実際、同モデルは数千にも及ぶ深刻な脆弱性を発見しており、それはOSやブラウザにも及び、これが経済や国家安全保障などに影響を及ぼすため、緊急のproject Glasswingを立ち上げており、まずは今回挙げたパートナーにClaude Mythos Previewにアクセス可能な無料のクレジットを与え、セキュリティに関する脆弱性を改善することで、セーフガードを確立し、その結果得られた知見をAnthropicがまとめて公表する、そしてその後パートナーはさらに拡大していく、という感じらしい。
しかし最近中国のOpenWeightモデルは、2ヶ月程度で米国のFrontier Modelに追いつく。では2ヶ月あとに中国系のOpenWeightモデルがClaude Mythos Previewの性能に追いついてOpenWeightとして公開された場合、世界はどうなってしまうのだろうか?
また、現在は以下の企業と連携してセーフガードを構築するようだが、これらグローバル企業以外の日本の企業はどうなるのだろうか?今後40以上の組織とも連携するようにする予定とのことだが、日本の社会を支えている企業群と連携するのはいつなのか?
所見:
所見:
しかしこれ、Claude Mythos Previewによって初めてこのようなことが起きたかのように書かれているけど、既知の脆弱性を見つけて悪用するというのは、既に公開されているOpenWeightモデルや、プロプライエタリモデルでも十分可能なのでは?
なぜいまさらこのようなことを言い始めたのだろうか。
所見:
GPT-5.4でも15年前のLinux Kernelの深刻なバグを見つけたよ、という話:
Microsoft Open-Sources Industry-Leading Embedding Model, Microsoft Bing Blog, 2026.04
Paper/Blog Link My Issue
#Article #Embeddings #NLP #MultiLingual #OpenWeight #read-later Issue Date: 2026-04-07 Comment
元ポスト:
Vision Language Models (Better, faster, stronger), merve+, 2025.03
Paper/Blog Link My Issue
#Article #Survey #ComputerVision #NLP #VisionLanguageModel #Initial Impression Notes Issue Date: 2026-04-07 Comment
元ポスト:
1年前のVLMに関するトレンドをまとめた記事のようだが、その後も同トレンドが継続している模様
GEN1: Scaling Embodied Foundation Models to Mastery, Generalist AI Team, 2026.04
Paper/Blog Link My Issue
#Article #Pretraining #FoundationModel #Generalization #Robotics #VisionLanguageActionModel #EmbodiedAI #Scalability #EmergentAbilities #Initial Impression Notes Issue Date: 2026-04-05 Comment
元ポスト:
シンプルなタスクにおいて99%の成功率を測り、従来」りも3倍高速で、臨機応変に(1時間未満の当該ロボットのデータによるチューニングを経て)対応可能なモデルを開発し、それはスケーリング則の恩恵に預かれるような効率的な事前学習モデルに基づいています、といった話らしい?
関連:
- GEN-0 / Embodied Foundation Models That Scale with Physical Interaction, Generalist AI Team, 2025.11
ざーっと読んでみたが、事前学習に関する細かな話は記述されていないように見え、どちらかというとmasteryに関する定義や関連するmetiicについての言及や、それがGEN-0と比較して今回どの程度改善したのか、といったマーケティングメッセージが多いように感じた。
Announcing 1-bit Bonsai: The First Commercially Viable 1-bit LLMs, 2026.03
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Proprietary Issue Date: 2026-04-04 Comment
元ポスト:
関連:
- [Paper Note] The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits, Shuming Ma+, arXiv'24, 2024.02
- [Paper Note] BitNet b1.58 2B4T Technical Report, Shuming Ma+, arXiv'25, 2025.04
圧倒的デコーディング速度:
Why aren't we fine-tuning more?, Nate Meyvis, 2026.03
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #PostTraining #Finetuning Issue Date: 2026-03-30 Comment
元ポスト:
なぜFinetuningは普及していないのか?という点を考察しているブログ。ざっくり言うと、「コストの割に合わない」ということであり、具体的には
- Finetuningをしなくてもprompt engineeringで十分な性能が出てしまい
- Finetuningをしなくても、ドメイン固有のツールを組み合わせることでドメインspecificな挙動が実現できたり
- Finetuningを実施すると、新たなモデルが利用可能になった場合に再度Finetuningを実施するなどのオーバヘッドが生じ割に合わない
といった話が書かれている。個人的にはさらに言うと
- Finetuningを実施することでAI Safety周りの懸念が生じてしまい、Safetyに関する評価を厳密には実施しなければならない(特に何らかのチャットベースの応用の場合はなおさら)
というのもあると感じており、このモデルは安全ですと顧客にどのように説明するのか?という新たな説明責任が生じるという点もあるのかなと思う。
しかし、やはりFinetuningはあまり普及していないんだなあ、感
How Kimi, Cursor, and Chroma Train Agentic Models with RL, PHILSCHMID, 2026.03
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #ReinforcementLearning #AIAgents #read-later #reading #LongHorizon Issue Date: 2026-03-29
Introducing Marin: An Open Lab for Building Foundation Models, marin-community, 2025.05
Paper/Blog Link My Issue
#Article #Pretraining #NLP #LanguageModel #OpenWeight #OpenSource #Selected Papers/Blogs Issue Date: 2026-03-29 Comment
github:
https://github.com/marin-community/marin
issueのExperimentsが興味深い
関連:
- Marin 32B Retrospective, marin-community, 2025.10
Marin projectのアナウンスをメモっていなかったので今更ながらメモ
- open-weight, open-sourceを超えて、LLMのopen-developmentを実現するための完全な透明性を持ったopen lab
- すべての実験はgithub issueで管理され公開される
- marinのコードベースを使い誰でも実験をコード中に記述しpull repuestを送れ、誰でもレビューできる
- プルリクが承認されると実験が実際に実行され、誰でもWandB上の経過をリアルタイムで観察できる
Delphi[^1]の実験において、25Bパラメータモデルがweight decayフェーズに突入し、Marin-32Bでは以前はweight decayフェーズでloss spikeが頻発したが、Delphiでは安定していそうな見込み、という話がポストされている:
[^1]: 現代版のPythiaを構築しましょうという話で、Pythiaのモデルパラメータを70Bまでスケールアップし、学習に用いるトークン数もチンチラ則従いモデルサイズに応じてスケールアップ、The PileデータなどのデータセットをNemotron-CCなどのlarge scaleモデル用のデータセットに置換する、といった話が含まれる。Marin Issue 1337を参照のこと。
129B-A16Bの学習を開始したとのこと:
リアルタイムRLでComposerを改善する, Cursor, 2026.03
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #ReinforcementLearning #Coding #SoftwareEngineering #KeyPoint Notes #Realtime Issue Date: 2026-03-28 Comment
実際の推論トークンとユーザの応答を集約して報酬を作成しモデルの改善に使うリアルタイムRLによって5時間ごとにComposerチェックポイントをアップデートしデプロイする。
Reward Hackingを防ぐことはこのようなリアルタイムRLではより一層重要でそのための報酬設計として工夫した点が2つ挙げられている。
- 元々はツール呼び出しが無効だった例を除外するようにして報酬を設計していたが、モデルはこれにより無効なツールを呼び出せば負の報酬を得ないことを学び意図的に無効なツールを呼び出すことを学習した。これを防ぐために、ツール呼び出しに失敗した場合に明確に負の報酬を与えるように変更
- モデルが実施した編集について、自分がコードを編集しなければペナルティを受けないことを学習し、難しい編集については質問をすることで先送りする挙動をRewardHackingの結果学習した。質問については適切なタイミングで実施する必要があるため、報酬を修正した
といった話が書かれている。
現在は比較的短いタスクを実行してユーザからフィードバックを受け取れるが、今後はlong horizonなタスクを実行することが予想され、その場合
- ユーザのフィールドバックの頻度は減り
- 成果物全体に対するフィードバックを返すようになる
という異なる性質のデータを扱わなければならないのでそれに向けて改善を進めるとのこと。
A Visual Guide to Attention Variants in Modern LLMs, Sebastian Raschka, 2026.03
Paper/Blog Link My Issue
#Article #Tutorial #NLP #LanguageModel #Attention #read-later Issue Date: 2026-03-26
TurboQuant: Redefining AI efficiency with extreme compression, Google Research, 2026.03
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Reference Collection #KV Cache #Compression #Initial Impression Notes Issue Date: 2026-03-25 Comment
元ポスト:
kv cacheをlong contextで1/6に圧縮して、8倍スピードアップして、accuracyのlossがない圧縮技術とのこと。果たして
たまたまこの動画を見つけたがおそらくこの研究のことを行っているのだろう:
https://youtube.com/shorts/5LMoZjoprQc?si=C43dJuXqpAa-p4BP
不要な逆量子化処理を省くことで高速化可能らしい:
Vibe physics: The AI grad student, Anthropic, 2026.03
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #ScientificDiscovery #Physics #AI-Human Co-Improvement #Human-in-the-Loop Issue Date: 2026-03-25 Comment
元ポスト:
最大規模のオープン基盤モデルを各国仕様へ適応させる事後学習技術を開発, sakana.ai, 2026.03
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Alignment #Bias #Japanese #PostTraining #Reading Reflections Issue Date: 2026-03-24 Comment
技術的な詳細は不明で、
> 事後学習では、日本の文化的・社会的文脈におけるバイアス是正のための独自データセットを構築し、以下のベンチマークに示す結果を得ました。
と記述されている。おそらく構築したデータセットに基づいてAlignmentをとるための事後学習(ベースモデルの能力を落としていないため Catastrophic Forgettingは起きておらず、同社がLoRA系の技術に力を入れていることを鑑みるとおそらく何らかのPEFT手法ではないかと推察)を実施しているのだと思われる。
元ポスト:
LLM Architecture Gallery, Sebastian Raschka, 2026.03
Paper/Blog Link My Issue
#Article #Survey #NLP #LanguageModel #Transformer #OpenWeight #Architecture #Initial Impression Notes Issue Date: 2026-03-20 Comment
元ポスト:
Sebastian Raschka氏がいつもポストしているOpenWeight LLMのアーキテクチャ図のギャラリー。パラメータサイズ, head数などの細かい情報も含まれているので、全体を概観するのに良さそう。
Reinforcement Learning from Human Feedback, Nathan Lambert, 2026.03
Paper/Blog Link My Issue
#Article #Tutorial #NLP #LanguageModel #ReinforcementLearning #PostTraining #read-later Issue Date: 2026-03-20 Comment
元ポスト:
PLaMo 3.0 Prime β版, PFN, 2026.03
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Reasoning #Japanese #Selected Papers/Blogs #In-Depth Notes #Surface-level Notes Issue Date: 2026-03-19 Comment
元ポスト:
日本国内初のフルスクラッチReasoningモデル
## 公式発表のまとめ
- [Paper Note] YaRN: Efficient Context Window Extension of Large Language Models, Bowen Peng+, ICLR'24
によってcontext windowを64Kまで拡張(PLaMo 2.2 Primeの2倍)。
事後学習データの見直し(新たなオープンデータセット追加, 独自データとして、日本語指示追従能力, tool use, long horizon QA, 医療分野, STEM, RAG性能向上のためのデータ)を実施し、SFT, DPO, RLの流れで学習を実施。SFT, DPOについてはreasoning trajectoryもLossで考慮するように変更。SFT, DPO向けデータについてはreasoning trajectoryを合成したものを利用。
RLは今回初めて導入し学習を安定させるための工夫を取り入れているとのこと。Reference Answerとの比較と表層的な特徴から報酬を計算する関数を実装した、という書かれ方をしている。
gpt-oss-120B(memium)との比較で言うと
指示追従性能が日本語、英語ともによりも高く、医療分野のQA(国家試験を除く)、英語、日本語での対話能力で勝っている。また、法令分野のQAは同等である。
単一ツールや複数ツールからの選択は同等、multi turnの場合はPLaMo2.2から大幅に性能向上しているもののgpt-ossよりも劣る。また、long contextのQA、医療分野の国家試験QA、STEM分野のQAや数学的な推論能力は大幅に前回モデルよりも向上したが、まだgpt-ossなどには届いていない、という感じに見える。
アーキテクチャについては、一新したという話とRoPEベースということ以外はよくわからない。
## 筆者の憶測と感想
※以下、筆者の憶測を多く含んだ感想です。ただ筆者が勝手に想像して自分なりに考えてみているだけです。
DPOにNLL lossを追加することでreasoningを強化できることは下記研究で示されている:
- [Paper Note] Iterative Reasoning Preference Optimization, Richard Yuanzhe Pang+, NeurIPS'24, 2024.04
RLの報酬に関して、表層的な特徴とReference Answerとの比較から最適な報酬を計算とのことなので、おそらく何らかのVerificationのための仕組みと、Rubric-basedなLLM-as-a-Judgeだろうか?Reward Modelという書かれ方はしていない。
RLについては安定性のある手法を採用したとのことだが、DAPO、
- [Paper Note] DAPO: An Open-Source LLM Reinforcement Learning System at Scale, Qiying Yu+, NeurIPS'25
あるいはRLのスケーリング則を導いた研究でDAPOよりも安定性と最終到達性能において優れていることが示された
- [Paper Note] The Art of Scaling Reinforcement Learning Compute for LLMs, Devvrit Khatri+, arXiv'25, 2025.10
CISPOあたりだろうか:
- [Paper Note] MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning
Attention, MiniMax+, arXiv'25, 2025.06
あとは安定性という観点で言うと、inference/trainingエンジンでのtraining-inference gapの課題についても対処している可能性がある。
- Hot topics in RL, Kimbo, X, 2025.12
- [Paper Note] Beyond Precision: Training-Inference Mismatch is an Optimization Problem and Simple LR Scheduling Fixes It, Yaxiang Zhang+, arXiv'26, 2026.02
思考過程が英語ということは、言語間で能力は転移し、かつ事前学習データとしてはリソースが豊富な英語が多く含まれると想像すると、明示的(strong LLMでtrajectoryを合成したものを加える系の話)あるいはデータに自然と現れるreasoningの挙動から事前学習中にreasoning能力が暗黙的に学習されることを踏まえ、SFTでreasoning能力を強化する際に(日本語よりも英語の方が効果的な可能性が高く)英語でのtrajectoryを合成したという感じだろうか(いつか日本語のreasoning trajectoryを出力するモデルも見てみたいなあ)。
Multi Turnのtool useの性能向上に関して、AI Agent分野のlong horizonな合成データを合成するアプローチや、Sink Tokenの活用や、トークン単位でsink tokenを計算することに相当するHead wise gated attentionなどはしているのだろうか。
- [Paper Note] Efficient Streaming Language Models with Attention Sinks, Guangxuan Xiao+, ICLR'24
- [Paper Note] Step 3.5 Flash: Open Frontier-Level Intelligence with 11B Active Parameters, Ailin Huang+, arXiv'26, 2026.02
また、アーキテクチャに関してはcontext windowが海外のフロンティアモデルと比較してまだ小さめであるが、今後context windowを大きくするにあたって、オンポリシーRLでのロールアウト時間がボトルネックとなることが考えられ、Mamba(=linear attention)系のアーキテクチャをハイブリッドや、DSA系のsparse attentionなどの採用によるアーキテクチャ起因の計算コスト低減(現在どのようなアーキテクチャなのかは全くわからないが)、あるいはin-flight-updateのような学習エンジン側での効率化なども必要になるのではなかろうか(現在どういうエンジンなのかは全くわからないが)。
- [Paper Note] DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models, DeepSeek-AI+, arXiv'25, 2025.12
- [Paper Note] PipelineRL: Faster On-policy Reinforcement Learning for Long Sequence
Generation, Alexandre Piché+, arXiv'25, 2025.09
Mistral Forge: Build your own frontier models, MistralAI, 2026.03
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #ReinforcementLearning #Proprietary #mid-training #PostTraining #Data Issue Date: 2026-03-18 Comment
元ポスト:
エンタープライズ向けの社内の機密データによってLLMの(おそらく継続)事前学習、事後学習、RLを実施したカスタムモデルを構築するソリューションのようである。Dense, MoEなどのアーキテクチャも選択可能な模様。
ベースモデルなどが書かれていないように見えるが、Mistral製のオープンLLMがベースとなるのだろうか。
State of RL for reasoning LLMs, A. Weers, 2026.03
Paper/Blog Link My Issue
#Article #Survey #NLP #LanguageModel #ReinforcementLearning #PostTraining Issue Date: 2026-03-17 Comment
元ポスト:
NOUMENA, 2026.03
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Selected Papers/Blogs #One-Line Notes Issue Date: 2026-03-15 Comment
元ポスト:
関連:
- Why Training MoEs is So Hard, _xjdr, X Post
おそらく上記ポストの方の作業ログに関するブログと思われる。Canon Layer, mHC, Engramの再現、MoEのエキスパートは異なる学習率が必要なのか?、RDEPと呼ばれるアーキテクチャ(MoEアーキテクチャを採用するとexpertsがしばしば異なるGPUに割り当てられ、routingが特定のexsertsに偏るため特定のGPUがアイドルしてる時間が長くなるため効率が悪いというボトルネックをNVLinkがひもづくネットワーク全体に対してexpertsに対して送信するトークンを収集しパッチを作って送信することで効率を改善する、といったアプローチらしい?)のスループットとメモリ節約効果など、最新の生の知見が数多くまとまっているらしい。
Using NVFP4 Low-Precision Model Training for Higher Throughput Without Losing Accuracy, NVIDIA, 2026.03
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #read-later #LowPrecision Issue Date: 2026-03-12 Comment
元ポスト:
Effective harnesses for long-running agents, Anthropic, 2025.11
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Initial Impression Notes Issue Date: 2026-03-10 Comment
`Agent Harness` という用語の起源が気になっており、アンテナを張っているが、本ブログでAgent Harnessという用語が登場している。
- [Paper Note] Building Effective AI Coding Agents for the Terminal: Scaffolding, Harness, Context Engineering, and Lessons Learned, Nghi D. Q. Bui, arXiv'26, 2026.03
において本ブログが引用され `harness` という用語が用いられている。このブログが起源なのだろうか(勉強不足)。
The importance of Agent Harness in 2026, PHILSCHMID, 2026.01
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Selected Papers/Blogs #LongHorizon #Reading Reflections #AgentHarness Issue Date: 2026-03-08 Comment
本ブログで定義されているAgent Harnessは、これまでのAI Agent研究で利用されてきた Scaffold(=実行基盤)とEvaluation Harness(=評価基盤)のように、実行と評価を区別してきたLiteratureとは異なる、より包括的な概念に見える(言葉としてHarnessが用いられているので、最初に読んだときは困惑した)。
先行研究:
- [Paper Note] Holistic Evaluation of Language Models, Percy Liang+, arXiv'22, 2022.11
- [Paper Note] Lessons from the Trenches on Reproducible Evaluation of Language Models, Stella Biderman+, arXiv'24, 2024.05
- [Paper Note] Holistic Agent Leaderboard: The Missing Infrastructure for AI Agent
Evaluation, Sayash Kapoor+, arXiv'25, 2025.10
これまでのLiteratureでは、エージェントがタスクを遂行するためのエコシステム全般(言い換えるとLLMをエージェントの脳とした時の、エージェントの実装そのもの)のことをScaffold(ツール利用やコンテキスト管理、サブエージェントの実行、エラー時の挙動、プロンプト構成など)と呼び、
評価をする際の評価基盤となるインフラ(エージェントを動作させる仮想マシン等の実行環境やそのオーケストレーション、Scaffoldの構成、評価ベンチマーク、コストやtrajectoryのロギング等の評価全体に関わるエコシステム)のことをEvaluation Harnessと呼んできたと認識している。
(私の認識違いの可能性もあるが)このLiteratureを理解しておかないと、今後Harnessという言葉がバズワードと化して、思わぬ誤解を生むかもしれないので注意した方が良いかなと感じた。
つまり世の中には
- Scaffold
- Evaluation Harness
- Agent Harness
の3種類の定義があり、特に後者二つは省略してHarnessと呼ばれそう、という気がするが、後者二つは呼称が似ているが異なる概念を指しているので注意した方が良いかも(あくまで個人の感想)。
たとえば下記OpenAIのブログでも「Harness Engineering」という言葉がタイトルで用いられており、Harnessの定義がなされずに記述されているように見える。実際ブログ後半にはEvaluation HarnessというこれまでのLiteratureと同じ意味合いでの用語も登場している。今後どのような用語が何を指すのようになるかは分からないが、ハーネスという言葉の定義が人によって異なる可能性があるという点は認識しておいた方が良さそうである。
- Harness engineering: leveraging Codex in an agent-first world, Ryan Lopopolo, 2026.02
`Agent Harness` という用語の起源が気になっており、アンテナを張っているが、下記AnthropicブログでAgent Harnessという用語が登場している。
- Effective harnesses for long-running agents, Anthropic, 2025.11
下記文献でも
- [Paper Note] Building Effective AI Coding Agents for the Terminal: Scaffolding, Harness, Context Engineering, and Lessons Learned, Nghi D. Q. Bui, arXiv'26, 2026.03
Effective harnesses for long-running agents, Anthropic, 2025.11
が引用され `harness` という用語が用いられている。このブログが起源なのだろうか(勉強不足)。
- [Paper Note] SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks, Xiangyi Li+, arXiv'26, 2026.02
でも Agent Harness という用語が使われている。
Codex Security: now in research preview, OpenAI, 2026.03
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Security Issue Date: 2026-03-07 Comment
元ポスト:
Chinese Open Source: A Definitive History, Kevin Xu, 2026.03
Paper/Blog Link My Issue
#Article #Survey #NLP #LanguageModel #OpenWeight #read-later Issue Date: 2026-03-07
ガバメントAIで試用する国内大規模言語モデル(LLM)の公募結果, デジタル庁, 2026.03
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Japanese #One-Line Notes Issue Date: 2026-03-06 Comment
元ポスト:
以下が選出されたとのこと:
- 株式会社NTTデータ「tsuzumi 2」
- カスタマークラウド株式会社「CC Gov-LLM」
- KDDI株式会社・株式会社ELYZA共同応募体「Llama-3.1-ELYZA-JP-70B」
- ソフトバンク株式会社「Sarashina2 mini」
- 日本電気株式会社「cotomi v3」
- 富士通株式会社「Takane 32B」
- 株式会社Preferred Networks「PLaMo 2.0 Prime」
Practical Guide to Evaluating and Testing Agent Skills, PHILSCHMID, 2026.03
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Coding #SoftwareEngineering #read-later #AgentSkills Issue Date: 2026-03-06 Comment
元ポスト:
関連:
- How to Create Effective Agent Skills, openhands, 2026.02
Reasoning models struggle to control their chains of thought, and that’s good, OpenAI, 2026.03
Paper/Blog Link My Issue
#Article #Controllable #NLP #Dataset #LanguageModel #Chain-of-Thought #Evaluation #Reasoning #read-later #Author Thread-Post Issue Date: 2026-03-06 Comment
元ポスト:
著者ポスト:
PPO → DPO → GRPO→ Rubrics, PROF. TOM YEH, 2026.03
Paper/Blog Link My Issue
#Article #Tutorial #NLP #LanguageModel #ReinforcementLearning #Video #PostTraining #Non-VerifiableRewards #One-Line Notes #Rubric-based Issue Date: 2026-03-05 Comment
Cameron R. Wolfe氏によるRubic-basedなRL(主にnon-verifiableなドメインへの適用)のチュートリアル。序盤はPPO, DPO, GRPOに関する解説
元ポスト:
GPT‑5.3 Instant:よりスムーズで、日常会話にもっと役立つ, OpenAI, 2026.03
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #ChatGPT #Proprietary Issue Date: 2026-03-04 Comment
元ポスト:
なんだかなあ
How to Create Effective Agent Skills, openhands, 2026.02
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #read-later #AgentSkills Issue Date: 2026-03-03 Comment
元ポスト:
New ARENA material: 8 exercise sets on alignment science & interpretability, CallumMcDougall, 2026.02
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Alignment #Safety #read-later #Selected Papers/Blogs Issue Date: 2026-03-03 Comment
元ポスト:
FP8 trainingを支える技術 1, Kazuki Fujii, 2026.02
Paper/Blog Link My Issue
#Article #Tutorial #Pretraining #NLP #LanguageModel #mid-training #PostTraining #Selected Papers/Blogs #LowPrecision Issue Date: 2026-03-01
CoderForge-Preview: SOTA open dataset for training efficient coding agents, together.ai, 2026.02
Paper/Blog Link My Issue
#Article #NLP #Dataset #LanguageModel #Supervised-FineTuning (SFT) #AIAgents #Coding #SoftwareEngineering #read-later #Selected Papers/Blogs Issue Date: 2026-02-28 Comment
元ポスト:
Building Multimodal Worlds with Moonlake's World Modeling Agent, Moonlake, 2026.02
Paper/Blog Link My Issue
#Article #read-later #WorldModels Issue Date: 2026-02-28 Comment
元ポスト:
NDLOCR-Liteの公開について, NDL Lab, 2026.02
Paper/Blog Link My Issue
#Article #NeuralNetwork #ComputerVision #NLP #Repository #Japanese #Selected Papers/Blogs #Encoder-Decoder #OCR #One-Line Notes Issue Date: 2026-02-28 Comment
元ポスト:
江戸期以前の和古書、清代以前の漢籍といった古典籍資料のデジタル化画像からテキストデータを作成するOCRとのこと。以前はGPUで動作していたが、CPUで動作するようにした軽量版とのこと。すごい。
Introducing Mercury 2, inception, 2026.02
Paper/Blog Link My Issue
#Article #EfficiencyImprovement #NLP #LanguageModel #DiffusionModel #Reasoning #Proprietary #Selected Papers/Blogs #One-Line Notes Issue Date: 2026-02-27 Comment
元ポスト:
1092 token/secのproprietary (reasoning) dLLM
関連:
- [Paper Note] Mercury: Ultra-Fast Language Models Based on Diffusion, Inception Labs+, arXiv'25
Artificial Analysisのベンチマーキング結果とスループットの散布図:
スループット/性能比において明らかに抜きんでている。
# Writing a good CLAUDE.md, Kyle, 2025.11
Paper/Blog Link My Issue
#Article #NLP #AIAgents #Selected Papers/Blogs #KeyPoint Notes #Surface-level Notes #Reading Reflections #AGENTS.md Issue Date: 2026-02-27 Comment
元ポスト:
本ブログは CLAUDE.md について記述されているものだが、ブログ冒頭で記述されており、AGENTS.mdに一般的に適用できる話だと考えられるため、以下本文中でCLAUDE.mdとして記述されている部分も、AGENTS.mdと読み替えて記述している。
要するに
- `AGENTS.md` はAI Agentの **全ての会話に対してコンテキストをユーザが明示的に挿入する唯一の手段** であり、
- `AGENTS.md` にはプロジェクトのあらゆるタスクで **普遍的に必要な情報を、過不足なく、簡潔に記述されるべき** であり
- プロジェクトが大規模な場合は、`AGENTS.md` は目次として利用し、必要な情報は個別のファイルに別々に記述し、`AGENTS.md` 内にはその **ポインターのみを記載** する
- `AGENTS.md` の **自動生成は非推奨** であり、理由としては1行でも誤った記述が含まれていた場合全てのエージェントの挙動に影響が出るためであり、全ての内容について慎重に検討をしたうえで記述されるべきである。
という話のようである。
-----
- 原則
- AI Agentはstatelessであり、あなたのコードベースについて何も知らない。このため利用者がコンテキストとしてコードベースの情報を伝える必要があり、そのために有用なツールがAGENTS.mdである
- AGENTS.mdはすべての会話にデフォルトでコンテキストとして含まれる **唯一の** ファイルである
- AGENTS.mdでどのような情報が網羅されるべきか?
- **WHAT**: 技術スタック、プロジェクト構造、コードベースの構成等のリポジトリの基本情報を記述し、Agentが適切に情報を検索できるようにする
- **WHY**: プロジェクトの役割と、リポジトリ内の要素の役割
- **HOW**: Agentがどのような作業をすべきに関する明確な指示を記述し、その指示を実施するために必要な情報を全て含める
- AGENT.md はしばしば無視される
- たとえばClaude CodeではCLAUDE.md (Claudeが利用するAGENTS.md) をコンテキストに含める際に以下のシステムリマインダーを自動的に挿入する:
- つまり、AGENTS.mdに普遍的に利用可能な情報が含まれていない場合は、現在実施しようとしているタスクと関係ないとエージェントが判断し、AGENTS.mdが無視されることがある点に注意が必要
```
IMPORTANT: this context may or may not be relevant to your tasks.
You should not respond to this context unless it is highly relevant to your task.
```
- 優れたAGENTS.mdを作成するベストプラクティス
- **less (instructions) is more**:
- AI Agentが順守できる指示の数には限界があり、指示の数が増えれば増えるほど、指示を遵守できない割合が高まっていく。
- これはモデル依存であり、パラメータ数が大きいモデルほど多くの指示を遵守できる(150--200など)。
- AGENTS.mdがすべての会話に付与されることを考えると、たとえば50個の指示をAGENTS.mdに含めた場合、150個の指示を遵守できるAgentを利用していたら、AGENTS.mdだけで1/3だけを消費することになる。
- また、指示が増えれば増えるほど、均一に指示追従の能力が低下する。
- つまり、ある指示が冒頭・末尾に書かれていようとも、位置に関係なく何らかの指示に追従しない可能性が高まる。
- これらの性質から、可能な限り少ない指示を記述することが必要で、特に冗長性を排除し、あらゆるタスクに普遍的に適用可能な指示のみを記述することが肝要であることが示唆される。
- length & applicability:
- AGENTS.mdは、300行未満などが推奨されているが、要は **適切な普遍的に適用可能な情報が** 簡潔で短く記述されていることが好ましい[^1]。
- Progressive Disclosure
- プロジェクトが大規模化した場合、必要な全ての情報を簡潔にAGENTS.mdに含めることがそもそも困難になる
- この場合はAGENTS.mdに目次を記述し、機能ごとの必要な情報は個別のファイルに記述し、それがどこに格納されているかのポインタを記述することによって解決する
- AGENTS.mdに全ての情報を書いてしまってはいけない。この場合上記の less is more や length の原則に反することになる。
- AGENT (CLAUDE) is not an expensive linter
- コーディング規約を書いている人が多いがやめた方が良いという話で、
- コーディング規約を無視しているか否かを判断させるにはもっと決定論的で安価なツールがあるのでそちらに任せましょうという話と、
- コーディング規約を明示していなくてもAgentはコードスニペットを解釈する過程で暗黙的にどのようなコーディング規約に従っているかは理解できるので、わざわざ明示的に挿入して不要で無関係なコンテキストで埋め尽くす必要はないよね、という話が書かれている。
- `/init` コマンドや、`AGENTS.md (CLAUDE.md)` の**自動生成は非推奨**
- AGENTS.md はAgentの全ての挙動に影響を与えるため、1行でも誤りがあると全ての作業に影響が出る非常にクリティカルなファイルであるため、自動生成等に頼らずに、慎重に検討をした上で記述されるべきである、という話
- 実際、下記研究にてLLMが自動生成したAGENTS.mdでは、タスク性能は劣化しトークン消費量が増えるだけ、という結果が示されている
- [Paper Note] Evaluating AGENTS.md: Are Repository-Level Context Files Helpful for Coding Agents?, Thibaud Gloaguen+, arXiv'26, 2026.02
[^1]: 根拠として、ブログ中では、無関係な情報がコンテキストで埋め尽くされているよりも、関連性のある情報が埋め尽くされる場合が一般的に性能が向上すると書かれている。が、文献などは引用されていないように見える。たとえば、この記述に対して、「初期のRAGの研究でrelevantな情報に対してirrelevantな情報が周囲で埋め尽くされていた場合に実は性能が向上します、といった話があったじゃないか」といった鉞を飛ばすことができそうだが、これは古い研究でおそらく当時(数年前)のLLMではcontext中のrelevantな情報を見分ける能力が低かったことに起因する。つまり、このような現象は明らかにirrelevantな情報が混在することで、相対的にrelevantな情報が際立つことによってLLMのcontextの理解力が乏しい部分を補っていた、と管理人は推察しており、現代のLLMではcontextを解釈する性能は大幅に向上していると考えられるため、わざわざirrelevantな情報をcontextに含める必要はなく、この見解には私も同意する。そもそもこの私の見解があまりにも重箱の隅すぎて蛇足すぎるがなんかそういうことを思い出しちゃったので書いた :)
ここで記載されている内容はAGENTS.mdのみならず、そもそものプロンプトエンジニアリング全般で言える話でもある。
Why SWE-bench Verified no longer measures frontier coding capabilities, OpenAI, 2026.02
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Evaluation #Coding #SoftwareEngineering #Selected Papers/Blogs #One-Line Notes #Contamination Issue Date: 2026-02-24 Comment
元ポスト:
SWE-Bench Verifiedはpublicなリポジトリに基づいたベンチマークなのでcontaminationが生じやすく、実際にいくつかのモデルでcontaminationが確認されたと言う話と、testコードに本来は正しい実装でもfailedとなる許容するスコープが狭いテストが存在していた、という話で、これらの教訓を生かしたSWE-Bench Proを作成し、実際それはcontaminationがほとんど起きておらず、仮に起きていたとしても非常にマイナーなものだよ、というような話が書かれている。
Detecting and preventing distillation attacks, Anthropic, 2026.02
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #OpenWeight #Proprietary #Selected Papers/Blogs #One-Line Notes Issue Date: 2026-02-24 Comment
元ポスト:
DeepSeek, Moonshot AI, MiniMax がDistillationを用いてClaude出力からモデルを改善するためのattackを特定したというAnthropicからのアナウンス
所見:
- [Paper Note] Extracting books from production language models, Ahmed Ahmed+, arXiv'26, 2026.01
で提案されている手法を用いてClaude Sonnetからハリーポッターと賢者の石の95.8%を抽出できた、との報告もある。
Out-of-Context Reasoning in LLMs: A short primer and reading list, Owains Evas, 2026.02
Paper/Blog Link My Issue
#Article #read-later Issue Date: 2026-02-23 Comment
元ポスト:
frontier model training methodologies, Alex Wa's Blog, 2026.01
Paper/Blog Link My Issue
#Article #read-later Issue Date: 2026-02-20 Comment
元ポスト:
Train Your Terminal-Use Agent with SkyRL + Harbor, Ruan+, 2026.02
Paper/Blog Link My Issue
#Article #read-later Issue Date: 2026-02-19 Comment
元ポスト:
Introducing Claude Sonnet 4.6, Anthropic, 2026.02
Paper/Blog Link My Issue
#Article #LanguageModel #Proprietary #read-later Issue Date: 2026-02-18 Comment
もうSonnetが出てきた
元ポスト:
所見:
Open models in perpetual catch-up, Interconnects, 2026.02
Paper/Blog Link My Issue
#Article #read-later Issue Date: 2026-02-18 Comment
元ポスト:
Can We Close the Loop in 2026?, PHILSCHMID, 2026.02
Paper/Blog Link My Issue
#Article #AIAgents #read-later Issue Date: 2026-02-18 Comment
元ポスト:
Cohere Labs Launches Tiny Aya, Making Multilingual AI Accessible, COHERE LABS TEAM, 2026.02
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #SmallModel #MultiLingual #OpenWeight #Selected Papers/Blogs #LowResource #KeyPoint Notes #Reference Collection Issue Date: 2026-02-18 Comment
元ポスト:
公式ポスト:
アーキテクチャ解説:
70程度の言語の性能をバランス良くサポートする3.35BのLLMで、Baseモデルと、マルチリンガルの性能は保ちつつも特定のregionに特化したinstruction tuningを実施したvariantを公開。また、multilingualでのベンチマークも公開。同程度の規模間のモデルについて、qwen3-4Bとの比較がわかりやすく、Europe, south asiaは同等、Asia-pacificはQwenよりも劣り、west asia, africa regionのようなこれまでlow resourceだと思われたregionではほか同規模のモデルと比較して突出した性能を誇るモデルに見える。CC上でのページ数と、言語モデルごとの性能を比較したグラフもあり、CCでのデータが少ない言語はこれまでのモデルは性能が低かったが、Tiny Ayaは非常に高い性能を達成している(このグラフで言うと日本語はかなりinformation richな言語にカテゴライズされているように見える)。
Rubric-Based Rewards for RL Extending the benefits of large-scale RL training to non-verifiable domains..., Cameron R. Wolfe, 2026.02
Paper/Blog Link My Issue
#Article #Tutorial #NLP #LanguageModel #ReinforcementLearning #PostTraining #read-later #VerifiableRewards #Selected Papers/Blogs #Non-VerifiableRewards #Rubric-based Issue Date: 2026-02-17 Comment
元ポスト:
Beyond MuP: 2. Linear Layers and Steepest Descent, Scientific Spaces, 2026.02
Paper/Blog Link My Issue
#Article #Pretraining #NLP #LanguageModel #Optimizer #Stability Issue Date: 2026-02-16 Comment
元ポスト:
AI 101: "On-Policy Distillation Zeitgeist", Turing Post, 2026.02
Paper/Blog Link My Issue
#Article #Tutorial #NLP #LanguageModel #ReinforcementLearning #PostTraining #On-Policy #One-Line Notes #SelfDistillation Issue Date: 2026-02-16 Comment
元ポスト:
最近よくみかける on-policy self-distillationに関する解説
QED-Nano: Teaching a Tiny Model to Prove Hard Theorems, LM Provers Team, 2026.02
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #Mathematics #SmallModel #PostTraining #Proofs #Rubric-based #Initial Impression Notes Issue Date: 2026-02-16 Comment
元ポスト:
ポイント解説:
早くもReasoning Cacheが利用されている:
- [Paper Note] Reasoning Cache: Continual Improvement Over Long Horizons via Short-Horizon RL, Ian Wu+, arXiv'26, 2026.02
4B級のモデルで特定タスクに特化したモデルを作りたい場合に非常に役立ちそうなレシピ
GPT‑5.2 derives a new result in theoretical physics, OpenAI, 2026.02
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #ScientificDiscovery #Physics #Human-in-the-Loop Issue Date: 2026-02-14 Comment
元ポスト:
Introducing GPT‑5.3‑Codex‑Spark: An ultra-fast model for real-time coding in Codex, OpenAI, 2026.02
Paper/Blog Link My Issue
#Article #EfficiencyImprovement #NLP #LanguageModel #AIAgents #Coding #SoftwareEngineering Issue Date: 2026-02-13 Comment
元ポスト:
所見:
MiniMax M2.5: SOTA in Coding and Agent, designed for Agent Universe, MiniMax, 2026.02
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Coding #OpenWeight #SoftwareEngineering #Selected Papers/Blogs Issue Date: 2026-02-13 Comment
元ポスト:
OsenHands IndexでClaude Sonnet 4.5超えの初めてのOpenWeightモデル:
コストパフォーマンスにおいては、低コストなモデル群の中では抜きん出た性能
まだHF上にWeightは公開されていないようだが後ほど公開されると思われる。
所見:
weightが公開:
https://huggingface.co/MiniMaxAI/MiniMax-M2.5
元ポスト:
UnslothがGGUF版を公開:
Harness engineering: leveraging Codex in an agent-first world, Ryan Lopopolo, 2026.02
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #GenerativeAI #Coding #SoftwareEngineering #One-Line Notes Issue Date: 2026-02-12 Comment
OpenAI社内でのコードを1行も人間が書かないで製品をリリースする取り組みに関する詳細なレポートのようである。初期の設計などで想像以上に時間がかかってしまった点(これはCodexの能力の問題ではない)や、実装を続ける中で品質に責任を持つ人間の能力(というより時間)がボトルネックになっていったため、極力Codexが自律的に品質管理ができるような実行・検証環境を用意することで負担を低減した話や、Codexに膨大なマニュアルを読ませて処理をさせるのではなく、どこにどのような情報が格納されているのかといったマップ(目次)を与えることがコンテキストエンジニアリング上重要だったことなどを通じてエージェントにとってリポジトリ全体の可読性を高めることが重要だったといった話や、プロジェクトの期間が長引くにつれて、リポジトリ内に共有されていないcontextが増大していき、それらをリポジトリに統合する作業が生じるなどの課題も生じたといったような話など色々と書かれている。
[Paper Note] Accelerating Mathematical and Scientific Discovery with Gemini Deep Think, Google DeepMin, 2026.02
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Mathematics #ScientificDiscovery #Test-Time Scaling #read-later #KeyPoint Notes #Physics #Human-in-the-Loop Issue Date: 2026-02-12 Comment
元ポスト:
- 数学について
- verifierを通じて解の修正と再生成を繰り返すが、問題が解けないことを認めることで(無駄な修正・再生成を減らすことで)効率を大幅に改善
- 博士課程レベル・オリンピックレベルを超えてもtest-time scalingが継続する
- 検索を融合することで既存文献を取り入れ正確性向上
- 完全自動で出版できるレベルの研究を実施可能なところまできている(level0--5のlevel2)
- コンピュータサイエンス・物理学について
- ネットワーク側で広範な解空間を探索してlong-trailな解も捉え推論に組み込むことが可能で、自動的なverificationと人間によるverificationを通じてoutputを生成する
- たとえば10年間未解決だったオンライン列モジュラ最適化と呼ばれる問題や、モデル学習時のノイズ除去による理論的な証明などを実施できている
論文:
- [Paper Note] Towards Autonomous Mathematics Research, Tony Feng+, arXiv'26, 2026.02
Introducing Lab: The Full-Stack Platform for Training your Own Models, Prime Intellect, 2026.02
Paper/Blog Link My Issue
#Article #ComputerVision #MachineLearning #NLP #LanguageModel #Infrastructure #ReinforcementLearning #AIAgents #ScientificDiscovery #PostTraining #Selected Papers/Blogs #One-Line Notes #Reference Collection #Environment Issue Date: 2026-02-11 Comment
元ポスト:
事後学習、特にAgenticな研究の民主化のためのプラットフォームの提供
所見:
利用例 (Environment Hub):
Composer 1.5 のご紹介, Cursor Team, 2026.02
Paper/Blog Link My Issue
#Article #NLP #ReinforcementLearning #AIAgents #GenerativeAI #Coding #SoftwareEngineering #PostTraining #One-Line Notes #Scalability Issue Date: 2026-02-10 Comment
事前学習モデルに対して、RLをさらにスケールさせることで性能が継続的に向上し、自己要約能力も備えさせることでcontext windowの問題に対処しているとのこと。
(関連)Composer: 強化学習で構築する高速フロンティアモデル:
https://cursor.com/ja/blog/composer
Opus 4.6, Codex 5.3, and the post-benchmark era, Interconnects, 2026.02
Paper/Blog Link My Issue
#Article #Analysis #LanguageModel #AIAgents #Coding #SoftwareEngineering #One-Line Notes #Author Thread-Post Issue Date: 2026-02-10 Comment
有識者によるClaude 4.6 Opus と Codex 5.3 を利用した際の所見(定性評価)が記述されている。
元ポスト:
著者によるTLDR:
Context-Bench: A benchmark for agentic context engineering, Letta Research, 2026.02
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Evaluation #ContextEngineering Issue Date: 2026-02-09 Comment
元ポスト:
Building a C compiler with a team of parallel Claudes, Anthropic, 2026.02
Paper/Blog Link My Issue
#Article #Multi #LanguageModel #AIAgents #Coding #SoftwareEngineering #read-later #Selected Papers/Blogs Issue Date: 2026-02-06 Comment
元ポスト:
Voxtral transcribes at the speed of sound, Mistral AI, 2026.02
Paper/Blog Link My Issue
#Article #SpeechProcessing #MultiLingual #OpenWeight #Proprietary #AutomaticSpeechRecognition(ASR) #Realtime #Transcript Issue Date: 2026-02-05 Comment
元ポスト:
Voxtral Mini Transcribe V2はproprietaryモデルでAPI利用のみ、Vostraal RealtimeはOpenWeightで公開
mistralai/Voxtral-Mini-4B-Realtime-2602:
https://huggingface.co/mistralai/Voxtral-Mini-4B-Realtime-2602
Vostral Mini Transcrive V2に対するVoxtral Realtimeの性能の比較。Voxtral Realtimeは遅延を調整可能なようで、遅延が大きければ大きいほど高い性能が出るが、リアルタイムに近づけば近づくほど性能はその分劣化する。
Fine-tuning open LLM judges to outperform GPT-5.2, together.ai, 2026.02
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Evaluation #LLM-as-a-Judge #DPO #RewardModel #One-Line Notes #Initial Impression Notes Issue Date: 2026-02-05 Comment
元ポスト:
Reward Bench 2:
- [Paper Note] RewardBench 2: Advancing Reward Model Evaluation, Saumya Malik+, arXiv'25, 2025.06
LLMでLLMを評価するというパラドックスに違和感はあるが、一般論として、「生成」するよりも「検証」することがモデルにとって簡単なタスクであるためうまくいきます(LLM-as-a-Judge)、といった説明が書いてあり、数千程度のサンプルでOpenLLMをDPOすることによって、GPT-5.2のようなFrontierモデルをReward Benchで上回ることができた、といった話が書かれている。
ただし、上記Reward Bench 2研究で示されている通り、**Reward Benchでの性能が高いReward Modelだからといって、必ずしもRLによって下流タスクの性能が向上するとは限らない点には注意**であり、元論文に従うとBest-of-Nサンプリングのようなtest-time-scalingのパラダイムとして利用するのが現在の実務上は良さそうである。
Together Evaluations now supports comparing top commercial APIs vs. open source models, together.ai, 2026.02
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Evaluation #PEFT(Adaptor/LoRA) #PostTraining #One-Line Notes Issue Date: 2026-02-05 Comment
元ポスト:
OpenLLMのFinetuningをサポートしているプラットフォームにおいて、データセットをアップロードすると
- Prompt optimization (GEPA)
- Fine-tuning (PEFT + full finetuning)
の両方を実施し、コスト-性能のパレート最適なポイントを評価し、かつGPT等とのProprietaryモデルとの比較もした評価もできるようになりました、といった話の紹介。
GEPA:
- [Paper Note] GEPA: Reflective Prompt Evolution Can Outperform Reinforcement Learning, Lakshya A Agrawal+, ICLR'26, 2025.07
Finetuningがサポートされているモデル群:
-
https://docs.together.ai/docs/fine-tuning-models
New Holo2 model takes the lead in UI Localization, H Company, 2026.02
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #AIAgents #OpenWeight #ComputerUse #Selected Papers/Blogs #VisionLanguageModel #Grounding #GUI Issue Date: 2026-02-05 Comment
HF: https://huggingface.co/Hcompany/Holo2-235B-A22B
元ポスト:
関連:
- Holo1.5 - Open Foundation Models for Computer Use Agents, H Company, 2025.09
Qwen3-Coder-Next: Pushing Small Hybrid Models on Agentic Coding, QwenTeam, 2026.02
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Attention #Coding #LongSequence #SmallModel #MoE(Mixture-of-Experts) #Selected Papers/Blogs #Initial Impression Notes Issue Date: 2026-02-04 Comment
HF: https://huggingface.co/collections/Qwen/qwen3-coder-next?spm=a2ty_o06.30285417.0.0.3bdec921Ja5TZI
元ポスト:
A3BでSWE Bench ProにおいてClaude Sonnet 4.5超え
関連:
- [Paper Note] Gated Delta Networks: Improving Mamba2 with Delta Rule, Songlin Yang+, ICLR'25, 2024.12
開発者の方のポスト:
int4 model from Cerebras:
https://huggingface.co/Intel/Qwen3-Coder-Next-int4-AutoRound
元ポスト:
Latest open artifacts (#18): Arcee's 400B MoE, LiquidAI's underrated 1B model, new Kimi, and anticipation of a busy month, Interconnects, 2026.02
Paper/Blog Link My Issue
#Article #Analysis #NLP #LanguageModel #OpenWeight Issue Date: 2026-02-03 Comment
paid userしか全文は閲覧できない
元ポスト:
Moltbook is the most interesting place on the internet right now, Simon Willisons's blog, 2026.01
Paper/Blog Link My Issue
#Article #Multi #NLP #LanguageModel #AIAgents #GenerativeAI #Conversation #Selected Papers/Blogs #Reference Collection Issue Date: 2026-02-01 Comment
元ポスト:
興味深い:
話したことのないhumanとの会話をあたかもあったことのように話し始める:
所見:
Andrej Karpathy氏もエージェントを参加させたようである:
所見:
Thoughts on the job market in the age of LLMs, Nathan Lambert, 2026.01
Paper/Blog Link My Issue
#Article #GenerativeAI Issue Date: 2026-02-01 Comment
元ポスト:
Introducing the OpenHands Index, OpenHands, 2026.01
Paper/Blog Link My Issue
#Article #Analysis #NLP #LanguageModel #AIAgents #Evaluation #SoftwareEngineering #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2026-01-30 Comment
元ポスト:
SWE Bench(pythonプログラムリポジトリに対するissueを解決するタスク)がSWE関連の代表的なベンチマークだがこれらはソフトウェアエンジニアリングのサブタスクの一つしか反映しておらず、より多くのタスクの解決能力でSWE Agentの能力を評価し、かつコストの軸でも評価をしてどのモデルがパレート最適なものなのかを見つけられるようなindexを作って評価しました、という話に見える。
タスクとしては以下の5つをピックしているとのこと:
> 1. Issue Resolution
> 2. Frontend Development
> 3. Greenfield Development
> 4. Software Testing
> 5. Information Gathering
これらのタスクを総合的に評価するとClaude 4.5 Opusが最も性能が高くコストも高い。次点でGPT-5.2-Codexという結果。またコストが最も安く平均的な性能が高いモデルとしてはDeepSeekV3.2-Reasonerとなった。また、特定のタスク、たとえばGreenfield developmentではGPT-5.2-Codexの性能が抜きん出ているなど、個別のタスクで見るとモデル間の優劣がはっきりと見えるような結果になっている。
以下のモデルが追加:
Claude 4.6 Opus
GPT 5.2 Codex
Kimi K2.5
GLM-4.7
MiniMax M2.5
Continual Learning with RL for LLMs, CAMERON R. WOLFE, PH.D., 2026.01
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #ReinforcementLearning #PostTraining Issue Date: 2026-01-26 Comment
元ポスト:
Petri 2.0: New Scenarios, New Model Comparisons, and Improved Eval-Awareness Mitigations, Anthropic, 2026.01
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Alignment #Evaluation #read-later Issue Date: 2026-01-23 Comment
元ポスト:
eval awareness mitigation
Claude's new constitution, Anthropic, 2026.01
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Safety #One-Line Notes Issue Date: 2026-01-22 Comment
ClaudeのAI Modelで利用される新たなConstitution
関連:
- [Paper Note] Constitutional AI: Harmlessness from AI Feedback, Yuntao Bai+, arXiv'22
元ポスト:
Designing AI-resistant technical evaluations, Anthropic, 2026.01
Paper/Blog Link My Issue
#Article #LanguageModel #Education #AIAgents #read-later #Selected Papers/Blogs #Initial Impression Notes #Testing Issue Date: 2026-01-22 Comment
元ポスト:
Anthropicの採用における持ち帰り課題の変遷に関する記事。昔の持ち帰り課題では、応募者の大半よりもClaudeが上回るようになり採用におけるシグナルが拾いづらくなったのでリデザインが必要になった、そしてそれをどう変化させたか、といった話のようである。これは採用の話だがtestingという広い文脈で捉えるとかなり参考になる話に見える。
Claudeを作っている会社が自社が作ったプロダクトによって採用で苦しむという構造になっており、それに対してどのように対処したかという話題は非常に興味深いトピックだと感じる。
IsoCompute Playbook: Optimally Scaling Sampling Compute for RL Training of LLMs, Cheng+, 2026.01
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #ReinforcementLearning #PostTraining #KeyPoint Notes #Scalability Issue Date: 2026-01-22 Comment
元ポスト:
RLにおけるロールアウト数nのスケーリングは、シグモイド関数のような形状になりどこかのポイントで明確にサチるポイントが存在し、それ以上増やしても少量のゲインしか得られないポイントが存在する。これらのトレンドはeasy/hardな問題の双方で共通して見出されるが、原因は大きく異なっており、nを大きくするとeasyな問題ではworst@kが改善し、hardな問題ではbest@kが改善することで性能が向上する。つまり、簡単な問題に対してはより安定して正解できてミスが減り、困難な問題に対しては探索空間が広がり1回でも正解できる可能性が高まる。また、また、ハードウェア制約によりバッチサイズは基本的に固定されるので、ロールアウト数nと1バッチあたりに含められる問題数はトレードオフの関係となる。
このロールアウト数nに関する性質は、異なるベースモデル間で共通して生じるが、サチるポイントが異なる。問題セットのサイズで見ると、サイズが小さいと早々にoverfitするためサチるnのポイントも早くなる。問題難易度の分布がmixしているものであればnによるスケーリングのトレンドは維持されるが、評価する際のmetricsによってサチるぽいんとが左右される。nのスケーリングはdownstreamタスクの性能も向上させる。
と言った話らしい。
10,924x: The Instability Bomb at 1.7B Scale, TayKolasinski, 2026.01
Paper/Blog Link My Issue
#Article #Tutorial #MachineLearning #NLP #LanguageModel #Selected Papers/Blogs #Reproducibility #ResidualStream Issue Date: 2026-01-19 Comment
元ポスト:
関連:
- [Paper Note] mHC: Manifold-Constrained Hyper-Connections, Zhenda Xie+, arXiv'25, 2025.12
- [Paper Note] Hyper-Connections, Defa Zhu+, ICLR'25, 2024.09
part1:
https://taylorkolasinski.com/notes/mhc-reproduction/
HC, mHCの説明が美しい図解と数式で説明されている。分かりやすい!
HCの課題とmHCがどのように解決したかを数式的、直感的に理解でき非常に有用
A Visual Introduction to Rectified Flows, Alec Helbling, 2026.01
Paper/Blog Link My Issue
#Article #Tutorial #ComputerVision #MachineLearning #read-later #FlowMatching #RectifiedFlow Issue Date: 2026-01-19 Comment
元ポスト:
Revisiting Convergence Results in Convex Optimization (Part VI), 苏剑林, 2026.01
Paper/Blog Link My Issue
#Article #read-later #Scheduler Issue Date: 2026-01-17 Comment
元ポスト:
Context Rot: How Increasing Input Tokens Impacts LLM Performance, CHROMA TECHNICAL REPORT, 2025.07
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #LongSequence #read-later #ContextEngineering #ContextRot Issue Date: 2026-01-17
Anthropic Economic Index: new building blocks for understanding AI use, Anthropic, 2026.01
Paper/Blog Link My Issue
#Article #Analysis #GenerativeAI Issue Date: 2026-01-16 Comment
元ポスト:
Next generation medical image interpretation with MedGemma 1.5 and medical speech to text with MedASR, Google Research, 2026.01
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #MultiModal #SpeechProcessing #OpenWeight #AutomaticSpeechRecognition(ASR) #VisionLanguageModel #Medical Issue Date: 2026-01-14 Comment
元ポスト:
ポイント解説:
Cowork: Claude Code for the rest of your work, Anthropic, 2026.01
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #GenerativeAI Issue Date: 2026-01-13 Comment
元ポスト:
競合(こちらは完全にオフラインで動作する):
- 🍫 Local Cocoa: Your Personal AI Assistant, Fully Local 💻, synvo-ai, 2026.01
SETA: Scaling Environments for Terminal Agents, CAMEL-AI, 2026.01
Paper/Blog Link My Issue
#Article #Tools #NLP #LanguageModel #ReinforcementLearning #AIAgents #SyntheticData #Evaluation #Repository #SoftwareEngineering #PostTraining Issue Date: 2026-01-12 Comment
元ポスト:
HF: https://huggingface.co/datasets/camel-ai/seta-env
GitHubのreadmeに日本語がある!?
Demystifying evals for AI agents, Anthropic, 2026.01
Paper/Blog Link My Issue
#Article #Tutorial #NLP #LanguageModel #AIAgents #Evaluation #Selected Papers/Blogs Issue Date: 2026-01-10 Comment
元ポスト:
NousCoder-14B: A Competitive Olympiad Programming Model, Joe Li, 2026.01
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #ReinforcementLearning #Coding #OpenWeight #PostTraining #read-later Issue Date: 2026-01-09 Comment
元ポスト:
HF:
https://huggingface.co/NousResearch/NousCoder-14B
Apache 2.0
PipelineRLを採用している模様。興味深い。
Introducing LFM2.5: The Next Generation of On-Device AI, LiquidAI, 2026.01
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #ReinforcementLearning #SmallModel #OpenWeight #Japanese #PostTraining #Selected Papers/Blogs #VisionLanguageModel #One-Line Notes #AudioLanguageModel Issue Date: 2026-01-09 Comment
元ポスト:
日本語に特化した言語モデルも存在し、Sarashina2.2-1b-instruct-v0.1, TinySwallow-1.5B-InstructよりもJMMLU, M-IFEval (ja), GSM8K (ja)においてより高い性能を発揮している。
LFM2.5-1.2B-Base: [Hugging Face](
https://huggingface.co/LiquidAI/LFM2.5-1.2B-Base)
LFM2.5-1.2B-Instruct: [Hugging Face](
https://huggingface.co/LiquidAI/LFM2.5-1.2B-Instruct),
[LEAP](
https://leap.liquid.ai/models?model=lfm2.5-1.2b-instruct),
[Playground](
https://playground.liquid.ai/chat?model=cmk1jyp8f000204i56yy76uwh)
LFM2.5-1.2B-JP: [Hugging Face](
https://huggingface.co/LiquidAI/LFM2.5-1.2B-JP),
[LEAP](
https://leap.liquid.ai/models?model=lfm2.5-1.2b-jp)
LFM2.5-VL-1.6B: [Hugging Face](
https://huggingface.co/LiquidAI/LFM2.5-VL-1.6B),
[LEAP](
https://leap.liquid.ai/models?model=lfm2.5-vl-1.6b),
[Playground](
https://playground.liquid.ai/chat?model=cmk0wefde000204jp2knb2qr8),
[Demo](
https://huggingface.co/spaces/LiquidAI/LFM2.5-VL-1.6B-WebGPU)
LFM2.5-Audio-1.5B: [Hugging Face](
https://huggingface.co/LiquidAI/LFM2.5-Audio-1.5B),
[LEAP](
https://leap.liquid.ai/models?model=lfm2.5-audio-1.5b),
[Playground](
http://playground.liquid.ai/talk)
LiquidAIのモデルは日本語に特化したモデルが多く存在するのが特徴的に感じる。
ChatGPT ヘルスケアが登場, OpenAI, 2026.01
Paper/Blog Link My Issue
#Article #ChatGPT #GenerativeAI #Health Issue Date: 2026-01-09 Comment
元ポスト:
Scaling Real-Time Voice Agents with Cache-Aware Streaming ASR, Nvidia, 2026.01
Paper/Blog Link My Issue
#Article #SpeechProcessing #AutomaticSpeechRecognition(ASR) #One-Line Notes #Realtime Issue Date: 2026-01-07 Comment
元ポスト:
過去のStreaming形式のASRではwindowを定義しwindow中のcontextを逐次計算するアーキテクチャだったが本質的に効率が悪いのでアーキテクチャを改善。エンコーダの表現を内部でキャッシュし新たなデータが来たらその差分に基づいて内部のキャッシュをアップデートする方式によって大幅にlatencyを改善している(エンコーダのconvのdownsamplingも従来の4xから8xにしているとのこと)、という感じらしい。
Google's year in review: 8 areas with research breakthroughs in 2025, Dean+, 2025.12
Paper/Blog Link My Issue
#Article #read-later Issue Date: 2026-01-02 Comment
元ポスト:
Recursive Language Models: the paradigm of 2026, PRIME Intellect, 2026.01
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #LongSequence #read-later #Selected Papers/Blogs #reading #RecursiveModels #ContextRot Issue Date: 2026-01-02 Comment
関連研究:
- [Paper Note] Recursive Language Models, Alex L. Zhang+, arXiv'25, 2025.12
- Context Rot: How Increasing Input Tokens Impacts LLM Performance, CHROMA TECHNICAL REPORT, 2025.07
- [Paper Note] Scaling Long-Horizon LLM Agent via Context-Folding, Weiwei Sun+, arXiv'25, 2025.10
- [Paper Note] AgentFold: Long-Horizon Web Agents with Proactive Context Management, Rui Ye+, arXiv'25, 2025.10
- [Paper Note] Agentic Context Engineering: Evolving Contexts for Self-Improving
Language Models, Qizheng Zhang+, arXiv'25, 2025.10
Deriving the DPO Loss from First Principles, aayush garg, 2025.12
Paper/Blog Link My Issue
#Article #Tutorial #NLP #LanguageModel #ReinforcementLearning #DPO #PostTraining #read-later Issue Date: 2025-12-31 Comment
元ポスト:
関連:
- Deriving the PPO Loss from First Principles, aayush garg, 2025.12
SpecBundle & SpecForge v0.2: Production-Ready Speculative Decoding Models and Framework, Spec Forge Team+, lmsys org, 2025.12
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #LLMServing #SpeculativeDecoding Issue Date: 2025-12-28 Comment
元ポスト:
ノーコードで言語モデルの「学習」を体験できるMN-Core Playground _ SLM Customizeの遊び方, PFN, 2025.12
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #SmallModel #Japanese #PostTraining Issue Date: 2025-12-27 Comment
元ポスト:
Aligning to What? Rethinking Agent Generalization in MiniMax M2, MiniMaxAI, 2025.12
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Alignment #AIAgents #Reasoning #read-later Issue Date: 2025-12-27 Comment
元ポスト:
Deriving the PPO Loss from First Principles, aayush garg, 2025.12
Paper/Blog Link My Issue
#Article #Tutorial #NLP #LanguageModel #ReinforcementLearning #PostTraining #read-later Issue Date: 2025-12-27 Comment
元ポスト:
Qwen3-TTS Steps Up: Voice Cloning and Voice Design, Qwen Team, 2025.12
Paper/Blog Link My Issue
#Article #SpeechProcessing #OpenWeight #Proprietary #TTS Issue Date: 2025-12-25 Comment
元ポスト:
日本語のVoice Cloneもサポートされている
OpenHands trajectories with Qwen3 Coder 480B, Nebius blog, 2025.12
Paper/Blog Link My Issue
#Article #Dataset #LanguageModel #ReinforcementLearning #AIAgents #Coding #Reasoning #SoftwareEngineering #PostTraining Issue Date: 2025-12-24 Comment
元ポスト:
MiniMax M2.1: Significantly Enhanced Multi-Language Programming, Built for Real-World Complex Tasks, MiniMax, 2025.12
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Coding #Reasoning #SmallModel #OpenWeight Issue Date: 2025-12-24 Comment
元ポスト:
解説:
論文解説:VoiceStar, Aratako, Zenn, 2025.12
Paper/Blog Link My Issue
#Article #SpeechProcessing #PositionalEncoding #Encoder-Decoder #TTS Issue Date: 2025-12-22 Comment
vector quantization:
- [Paper Note] Autoregressive Image Generation using Residual Quantization, Doyup Lee+, CVPR'22, 2022.03
- [Paper Note] Taming Transformers for High-Resolution Image Synthesis, Patrick Esser+, CVPR'21, 2020.12
OpenTinker Democratizing Agentic Reinforcement Learning as a Service, Zhu+, University of Illinois Urbana-Champaign, 2025.12
Paper/Blog Link My Issue
#Article #EfficiencyImprovement #Tools #NLP #LanguageModel #ReinforcementLearning #PostTraining #KeyPoint Notes Issue Date: 2025-12-22 Comment
元ポスト:
code: https://github.com/open-tinker/OpenTinker
関連:
- verl: Volcano Engine Reinforcement Learning for LLMs, ByteDance Seed Team, 2025.04
- Tinker is a training API for {developers, builders, researchers}, THINKING MACHINES, 2025.10
Tinkerに着想を得てクライアントとサーバを分離した設計になっており、バックエンド側のGPUクラスタでサーバを一度起動するだけでクライアント側がスケジューラにジョブを送ればRLが実行される(ローカルにGPUは不要)。クライアント側はRLを実施したい環境のみをローカルで定義しコンフィグをロードしfitを呼び出すだけ。verlよりもよりも手間が省けているらしい。
リポジトリを見る限りは、verlをRLのコアエンジンとして使ってる模様。
Circuit Tracing: Revealing Computational Graphs in Language Models, Anthropic, 2025.03
Paper/Blog Link My Issue
#Article #NeuralNetwork #NLP #LanguageModel #Transcoders #CircuitAnalysis #Interpretability Issue Date: 2025-12-21
Equipping agents for the real world with Agent Skills, Anthropic, 2025.10
Paper/Blog Link My Issue
#Article #Tutorial #NLP #AIAgents #Selected Papers/Blogs #AgentSkills Issue Date: 2025-12-21
Gemini 3 Flash: frontier intelligence built for speed, Google, 2025.12
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Reasoning #Distillation #Proprietary #One-Line Notes #Reference Collection Issue Date: 2025-12-18 Comment
元ポスト:
Gemini 2.5 Proよりも3倍高速でかつ様々なベンチマークで上回っているとのこと。素晴らしい。Gemini 3 Proと比較しても基本的なQAや数学的な能力(reasoning能力)は性能に遜色なく、long sequence/contextの取り扱いでは明確に劣っている、という感じに見えるので、普段使いではこちらでも困らなそうに感じる。
Hallucination Rateが非常に高いとのことだが果たして:
Proからlogit baseな蒸留をして事前学習(=distillation pretraining)をしているっぽい?
GENIAC第3期で自律稼働デバイス向けの軽量な大規模視覚言語モデルPLaMo 2.1-8B-VLを開発, PFN, 2025.12
Paper/Blog Link My Issue
#Article #NLP #SmallModel #Japanese #VisionLanguageModel Issue Date: 2025-12-17 Comment
元ポスト:
PLaMo2.1-8BをベースにPLaMo翻訳を通じてVision Languageモデル用の合成データを学習し、既存の公開データと混ぜて学習することで学習されたVision Language Model Plamo2.1-8B-VLがのプロモーション用のブログ。
日本語でのVisual Question Answering (VQA)、Visual Groundingベンチマークにおいて、Qwen3-VL-8Bを上回るスコアを達成しているとのこと(具体的な数値は言及されていないが、いくつかの実例が見れる)。
現場での技術検証のためのモニター企業を募集している。
Interactive Intelligence from Human Xperience, Ropedia, 2025.12
Paper/Blog Link My Issue
#Article #Dataset #Robotics #WorldModels #VisionLanguageActionModel #EmbodiedAI #One-Line Notes #EgocentricView #Real-to-Sim Issue Date: 2025-12-17 Comment
pj page: https://ropedia.com/
元ポスト:
頭に装着するデバイスでegocentric viewのデータセットを収集し、実際の人間の様々な状況での経験を収集されたegocentric viewデータに基づいて活用し、より強力なworld model, Real-to-Sim, Vision Action Langauge Modelsを作ることをミッションとする新たなプロジェクト(?)な模様。
Rethinking SWA Why Short Sliding Window Attention Will Replace ShortConv in Modern Architectures, Yifan Zhang, 2025.12
Paper/Blog Link My Issue
#Article Issue Date: 2025-12-17 Comment
元ポスト:
ChatGPTの記憶システムはRAGを使っていなかった - 4層アーキテクチャの衝撃, UrayahaDays, 2025.12
Paper/Blog Link My Issue
#Article #ChatGPT Issue Date: 2025-12-15 Comment
元ポスト:
Just image Transformer: ピクセル空間で実画像を予測するフローマッチングモデル, Plat, 2025.12
Paper/Blog Link My Issue
#Article Issue Date: 2025-12-15 Comment
元ポスト:
2025 Open Models Year in Review, Interconnects AI, 2025.12
Paper/Blog Link My Issue
#Article #Tutorial #NLP #LanguageModel Issue Date: 2025-12-15 Comment
元ポスト:
言語生成の強化学習をやっていく(手法紹介 REINFORCE編), Seitaro Shinagawa, 2020.12
Paper/Blog Link My Issue
#Article #Tutorial #NLP #ReinforcementLearning Issue Date: 2025-12-14
15 Outstanding Research Papers from NeurIPS 2025, Kseniase, 2025.12
Paper/Blog Link My Issue
#Article #NeurIPS Issue Date: 2025-12-08 Comment
元ポスト:
論文リストと一言の解説付きポスト
Titans + MIRAS: Helping AI have long-term memory, Google Research, 2025.12
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Test-Time Scaling #memory Issue Date: 2025-12-07 Comment
元ポスト:
関連:
- [Paper Note] It's All Connected: A Journey Through Test-Time Memorization, Attentional Bias, Retention, and Online Optimization, Ali Behrouz+, arXiv'25, 2025.04
- [Paper Note] Titans: Learning to Memorize at Test Time, Ali Behrouz+, NeurIPS'25, 2024.12
解説:
ポイント解説:
Architecting efficient context-aware multi-agent framework for production, Hangfei Lin, Google, 2025.12
Paper/Blog Link My Issue
#Article #NLP #AIAgents #read-later #Selected Papers/Blogs #ContextEngineering Issue Date: 2025-12-07 Comment
元ポスト:
The LLM Evaluation Guidebook, Fourrier+, HuggingFace, 2025.12
Paper/Blog Link My Issue
#Article #Tutorial #LanguageModel #Evaluation #read-later #Selected Papers/Blogs Issue Date: 2025-12-05 Comment
元ポスト:
Mismatch Praxis: Rollout Settings and IS Corrections, LLM Data, 2025.12
Paper/Blog Link My Issue
#Article #Analysis #NLP #LanguageModel #ReinforcementLearning #SamplingParams #One-Line Notes #LongHorizon #train-inference-gap Issue Date: 2025-12-04 Comment
元ポスト:
on-policy RLにおけるロールアウト時のtemperature, top_p, top_kの設定、およびlong horizonの場合でのtrain-inference mismatchの関係性の分析
Improved accuracy in Smart Turn v3.1, Daily, 2025.12
Paper/Blog Link My Issue
#Article #NeuralNetwork #Transformer #AIAgents #SpeechProcessing #MultiLingual #OpenWeight #OpenSource #One-Line Notes #VAD Issue Date: 2025-12-04 Comment
dataset:
https://huggingface.co/pipecat-ai
code:
https://github.com/pipecat-ai/smart-turn
model:
https://huggingface.co/pipecat-ai/smart-turn-v3
オープンソースのVoice Activity Detection (VAD)モデル。本ブログのv3.1では、TTSデータだけでなく英語とスペイン語の人間によるaudio sampleも追加し学習し性能向上。23言語をサポートし、Accuracyは90%以上を達成。数msでのリアルタイムなlatencyを達成できる。
バックボーンはWhisper Tiny encoderで、headとしてshallow linear classifiesを利用しているとのこと。
Introducing Amazon Nova 2 Lite, a fast, cost-effective reasoning model, AWS, 2025.12
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Reasoning #Proprietary Issue Date: 2025-12-03 Comment
元ポスト:
関連:
- Introducing Amazon Nova, our new generation of foundation models, AWS, 2024.12
Building Safer AI Browsers with BrowseSafe, Perplenity Team, 2025.12
Paper/Blog Link My Issue
#Article #NLP #Dataset #LanguageModel #Prompting #Evaluation #OpenWeight #Safety #Safeguard Issue Date: 2025-12-03 Comment
元ポスト:
prompt injectionをリアルタイムに検知するモデルとそのベンチマークとのこと
dataset:
https://huggingface.co/datasets/perplexity-ai/browsesafe-bench
model:
https://huggingface.co/perplexity-ai/browsesafe
Introducing Mistral 3 The next generation of open multimodal and multilingual AI, Mistral AI, 2025.12
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #MultiModal #MultiLingual #OpenWeight #VisionLanguageModel #One-Line Notes Issue Date: 2025-12-03 Comment
元ポスト:
マルチモーダルなベンチマークがほとんどないように見えるMM-MT-Benchというもののみ?
Expert Parallel Deployment, vLLM, 2025.10
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #MoE(Mixture-of-Experts) #Parallelism #One-Line Notes Issue Date: 2025-12-01 Comment
MoEアーキテクチャにおいて、eXertsの重みを複数のGPUに分散することで計算効率を増大させるexpert parallelによるデプロイ方法をexpert parallelの配列数はData Parallel数*tensor parallel数となる。
Evaluating honesty and lie detection techniques on a diverse suite of dishonest models, Wang+, 2025.11
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Evaluation #read-later Issue Date: 2025-11-30 Comment
元ポスト:
LLMのための強化学習手法 2025 -PPO・DPO・GRPO・DAPO一気に理解する-, Keisuke Kamata, 2025.11
Paper/Blog Link My Issue
#Article #Tutorial #NLP #LanguageModel #ReinforcementLearning #Selected Papers/Blogs Issue Date: 2025-11-29 Comment
元ポスト:
こちらもあわせて読むと良さそう
- 言語生成の強化学習をやっていく(手法紹介 REINFORCE編), Seitaro Shinagawa, 2020.12
- 深層強化学習アルゴリズムまとめ, Shion Honda, 2020.09
- RLHF/DPO 小話, 和地瞭良/ Akifumi Wachi, 2024.04
Ilya Sutskever – We're moving from the age of scaling to the age of research, DWARKESH PATEL, 2025.11
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #GenerativeAI #One-Line Notes Issue Date: 2025-11-29 Comment
元ポスト:
現在のnext token predictionに基づく事前学習とRLに基づくスケーリング則による性能改善の時代から(理解が進んでいない部分があり、特に現在のRLでは汎化性能が十分に獲得できないため)、人間のような高度な価値関数の探求を含む新たなパラダイムを研究する時代の到来に関する話な模様
Introducing the WeirdML Benchmark, Håvard Tveit Ihle, 2025.01
Paper/Blog Link My Issue
#Article #MachineLearning #NLP #LanguageModel #Evaluation #Initial Impression Notes #Author Thread-Post Issue Date: 2025-11-29 Comment
著者ポスト:
元ポスト:
WeirdML v2: https://htihle.github.io/weirdml.html
MLにおけるあまり一般的ではない(=Weird)なタスクによるLLMのベンチマークらしい
生成AI革命の最前線:拡散を超える「流れ」の思想とMambaの台頭, laughman-ai, 2025.10
Paper/Blog Link My Issue
#Article #ComputerVision #FlowMatching #reading #RectifiedFlow #FlowMaps Issue Date: 2025-11-28
Flow With What You Know, Scott H. Hawley, 2024.11
Paper/Blog Link My Issue
#Article #ComputerVision #read-later #FlowMatching #RectifiedFlow #Physics Issue Date: 2025-11-28
Why (Senior) Engineers Struggle to Build AI Agents, PHILSCHMID, 2025.11
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #read-later Issue Date: 2025-11-27 Comment
元ポスト:
Effective harnesses for long-running agents, Anthropic, 2025.11
Paper/Blog Link My Issue
#Article Issue Date: 2025-11-27 Comment
元ポスト:
The Eiffel Tower Llama, David Louapre, 2025.11
Paper/Blog Link My Issue
#Article Issue Date: 2025-11-27 Comment
元ポスト:
Sarashina2.2-Vision-3B: コンパクトかつ性能が高いVLMの公開, SB Intuitions, 2025.11
Paper/Blog Link My Issue
#Article #NLP #SmallModel #Japanese #VisionLanguageModel #Cultural Issue Date: 2025-11-25 Comment
元ポスト:
HF: https://huggingface.co/sbintuitions/sarashina2.2-vision-3b
Claude-Opus-4.5: Introducing advanced tool use on the Claude Developer Platform, Anthropic, 2025.11
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Proprietary #Selected Papers/Blogs #Reference Collection Issue Date: 2025-11-25 Comment
元ポスト:
AnthropicがClaude-Opus-4.5をリリース。AgenticなユースケースでClaudeがベンチマーク上の首位をGemini3 Proから奪還
システムカード:
https://assets.anthropic.com/m/64823ba7485345a7/Claude-Opus-4-5-System-Card.pdf
人間と比較した時のパフォーマンスの解説:
EpochAIによるFrontierMath Tier1-3での評価:
o3(high), Grok4と同等程度で、Gemini3 Pro, GPT-5.1(high)には劣る
ベンチマーク上でのコーディング能力やagenticなツール呼び出し能力の差は縮まっている:
Artificial Analysisの評価:
スライドをいい感じに作れるらしい:
50% time horizonは4時間49分で現在top。
Stanford Agentic Reviewer, Stanford University, 2025.11
Paper/Blog Link My Issue
#Article #NLP #AIAgents #GenerativeAI #One-Line Notes Issue Date: 2025-11-25 Comment
元ポスト:
Andrew Ng氏によるAI Agentによる論文のレビュワーシステムで、ICLR'25のレビューで学習し、テストセットで評価したところ、人間-人間間の相関と人間-AI間の相関係数が同等の水準に到達とのこと。ICLR'25のレビューで学習しているということは当該ドメインに近しい研究であるほど適切なレビューが実施されるであろう点に注意。
大規模言語モデルの次期バージョン PLaMo 3 シリーズにおける8B, 31Bの小規模モデルによる事前学習の検証, PFN, 2025.11
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Japanese Issue Date: 2025-11-21 Comment
元ポスト:
コーディング能力で大幅に性能向上している模様:
- Swallow LLM Leaderboard v2, Swallow LLM Team, 2025.08
Benchmark Scores = General Capability + Claudiness, EpochAI, 2025.11
Paper/Blog Link My Issue
#Article #NLP #Dataset #LanguageModel #Evaluation #read-later Issue Date: 2025-11-21 Comment
元ポスト:
Claudiness=Claudeらしさ=エージェントタスクに優れている、しかしマルチモーダルや数学には弱いこと(皮肉を込めてこう呼んでいるらしい)
Claudeらしくないモデルとしては、o4-miniやGPT-5が挙げられる。
TAURO Project, note, 2024.10
Paper/Blog Link My Issue
#Article #Tutorial #ComputerVision #NLP #ScientificDiscovery #Japanese #Robotics Issue Date: 2025-11-20 Comment
元ポスト:
👀👀👀
Introducing zerank-2: The Most Accurate Multilingual Instruction-Following Reranker, ZeroEntropy, 2025.11
Paper/Blog Link My Issue
#Article #RecommenderSystems #Embeddings #InformationRetrieval #NLP #OpenWeight #Reranking Issue Date: 2025-11-20 Comment
HF: https://huggingface.co/zeroentropy/zerank-2
SoTA reranker
Introducing SAM 3D: Powerful 3D Reconstruction for Physical World Images, Meta, 2025.11
Paper/Blog Link My Issue
#Article #ComputerVision #FoundationModel #read-later #Selected Papers/Blogs #3D Reconstruction #3D (Scene) Issue Date: 2025-11-20 Comment
元ポスト:
解説:
Introducing Meta Segment Anything Model 3 and Segment Anything Playground, Meta, 2025.11
Paper/Blog Link My Issue
#Article #ComputerVision #ImageSegmentation #FoundationModel #read-later #Selected Papers/Blogs #2D (Image) #4D (Video) Issue Date: 2025-11-20 Comment
元ポスト:
今度はSAM3、最近毎日なんか新しいの出てるな
SAM 3.1:
https://huggingface.co/facebook/sam3.1
元ポスト:
Introducing Navigator, Yutori team, 2025.11
Paper/Blog Link My Issue
#Article #NLP #AIAgents #Proprietary #ComputerUse #read-later #VisionLanguageModel #One-Line Notes Issue Date: 2025-11-20 Comment
元ポスト:
gemini2.5, claude4.5, openaioperator等よりも性能が良いweb agentらしい
ACT-1: A Robot Foundation Model Trained on Zero Robot Data, Sunday Team, 2025.11
Paper/Blog Link My Issue
#Article #Zero/FewShotLearning #read-later #Generalization #Robotics #One-Line Notes #LongHorizon Issue Date: 2025-11-20 Comment
元ポスト:
テレオペレーション(遠隔操作; 模倣学習に使われるのだと思われる)ではなく、Skill Capture Gloveと呼ばれる手に装着するタイプのデバイスから収集したデータのみを収集して学習するらしい。手のデータは収集できるが、身長や腕の長さ、視覚的な情報が異なるではないか、という点については、グローブのデータを同等のロボットのデータに変換するみたいなことをするらしい。(ゆるふわ理解)
Previewing Locus, INTOLOGY, 2025.11
Paper/Blog Link My Issue
#Article #NLP #AIAgents #ScientificDiscovery #Test-Time Scaling #LongHorizon Issue Date: 2025-11-20 Comment
元ポスト:
所見:
AI Model Benchmarks Nov 2025, lmcouncil, 2025.11
Paper/Blog Link My Issue
#Article #NLP #Dataset #LanguageModel #AIAgents #Evaluation Issue Date: 2025-11-19 Comment
元ポスト:
50% time horizonなどを含む良さそうなベンチマークと主要モデルの比較が簡単にできそうなサイト
Introducing Google Antigravity, a New Era in AI-Assisted Software Development, Google, 2025.11
Paper/Blog Link My Issue
#Article #LanguageModel #AIAgents #GenerativeAI #Proprietary #SoftwareEngineering Issue Date: 2025-11-19 Comment
元ポスト:
google謹製のAI Agent FirstなIDE、らしい
NVIDIA NeMoを利用したGPT-OSSの学習, Kazuki Fujii, 2025.11
Paper/Blog Link My Issue
#Article #read-later Issue Date: 2025-11-19 Comment
元ポスト:
Gemini 3 による知性の新時代, Google, 2025.11
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #GenerativeAI #Proprietary #Selected Papers/Blogs #One-Line Notes #Reference Collection Issue Date: 2025-11-19 Comment
所見:
GPT5.1に対して各種ベンチマークで上回る性能。
所見:
Gemini2.5 Proは回答が冗長で使いにくかったが、Gemini3は冗長さがなくなり、クリティカルな情報を簡潔に、しかし短すぎない、ちょうど良いくらいの応答に感じており、レスポンスもGPT5.1, GPT5と比べ早いので普段使いのLLMとしては非常に良いのではないか、という感想(2,3個のクエリを投げただけだが)を抱いた。
Oriol Vinyals氏のコメント:
LiveCodeBench ProでもSoTA:
Gemini Pro 3 Developer Guide:
https://ai.google.dev/gemini-api/docs/gemini-3?hl=ja
元ポスト:
GAIA Verified (Browser Use?)でもSoTA:
ただし、どのようなハーネスが使われているかは不明だし、それらが各モデルにとってフェアなものになってるかも不明
スクショのみでリンクも無し。
所見:
content window,pricingなどの情報:
一般的なユースケースでのBest Practice:
パラメータ数に関する考察:
韓国語でのベンチマークに関するポスト:
自身のハーネス、ユースケース、タスクではうまくいかなかったよという話(でもただのサンプル数1だよ、という話が記載されている):
結局のところベンチマークはあくまで参考程度であり、自分たちのタスク、データセットで性能を測らねばわからない。
Artificial Intelligenceによる評価:
MCP Universeでtop:
- [Paper Note] MCP-Universe: Benchmarking Large Language Models with Real-World Model Context Protocol Servers, Ziyang Luo+, arXiv'25
Live SWE Agentと呼ばれるself-evolvingな枠組みを採用した場合(=scaffoldをbashのみから自己進化させる)のSWE Bench Vevifiedにやる評価でもSoTA:
- [Paper Note] Live-SWE-agent: Can Software Engineering Agents Self-Evolve on the Fly?, Chunqiu Steven Xia+, arXiv'25, 2025.11
- [Paper Note] SWE-bench: Can Language Models Resolve Real-World GitHub Issues?, Carlos E. Jimenez+, ICLR'24
この辺のsoftware agent系のベンチマークにおけるハーネスが具体的にどうなっているのか、中身を見たことないので見ておきたい。
(追記)
SWE Bench Verifiedのリーダーボードではmini-SWE-Agentを利用した公正な比較が行われており、こちらではGemini3がトップだったもののその後リリースされたClaude-Opus-4.5がtopを僅差で奪還しGemini3が2位とのこと。
ハーネスについてはこちらを読むと良さそう:
- [Paper Note] SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering, John Yang+, arXiv'24, 2024.05
EpochAIによる評価:
ECIでtop。ECIは39のベンチマークから算出されるスコア、らしい。
Scale AIのVisual Tool BenchでもSoTA:
- Beyond Seeing: Evaluating Multimodal LLMs On Tool-enabled Image Perception, Transformation, and Reasoning, Scale AI, 2025.10
CriPtと呼ばれるベンチマークにおける評価でもSoTA:
- [Paper Note] Probing the Critical Point (CritPt) of AI Reasoning: a Frontier Physics Research Benchmark, Minhui Zhu+, arXiv'25, 2025.09
最近提案された新たなtooluseベンチマークでもsecond placeらしい:
- [Paper Note] The Tool Decathlon: Benchmarking Language Agents for Diverse, Realistic, and Long-Horizon Task Execution, Junlong Li+, arXiv'25, 2025.10
IQ130らしい(果たして):
GPQA DiamondでSoTA:
Jeff Dean氏によるポスト:
AI in Practice Survey 2025, Theory Ventures, 2025.11
Paper/Blog Link My Issue
#Article #GenerativeAI Issue Date: 2025-11-19 Comment
元ポスト:
ParallelKittens: Simple and Fast Multi-GPU AI Kernels, Hazy Research, 2025.11
Paper/Blog Link My Issue
#Article #SoftwareEngineering #read-later #GPUKernel Issue Date: 2025-11-18 Comment
元ポスト:
読みたい
Grok 4.1, xAI, 2025.11
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #GenerativeAI #Proprietary #Selected Papers/Blogs Issue Date: 2025-11-18 Comment
元ポスト:
Third-Party Pangram Evaluations, Pangram., Destiny Akinode, 2025.11
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #GenerativeAI #text #AI Detector Issue Date: 2025-11-16 Comment
元ポスト:
ICLR 2026 - Submissions, Pangram Labs, 2025.11
Paper/Blog Link My Issue
#Article #Analysis #NLP #LanguageModel #ICLR #Selected Papers/Blogs #One-Line Notes #Reference Collection Issue Date: 2025-11-15 Comment
元ポスト:
ICLR'26のsubmissionとreviewに対してLLMが生成したものが否かをDetectionした結果(検出性能は完璧な結果ではない点に注意)
この辺の議論が興味深い:
関連:
oh...
パイプライン解説:
母国語でレビューを書いて英語に翻訳している場合もAI判定される場合があるよという話:
ICLR公式が対応検討中とのこと:
ICLRからの続報:
> As such, reviewers who posted such poor quality reviews will also face consequences, including the desk rejection of their submitted papers.
> Authors who got such reviews (with many hallucinated references or false claims) should post a confidential message to ACs and SACs pointing out the poor quality reviews and provide the necessary evidence.
citationに明らかな誤植があり、LLMによるHallucinationが疑われる事例が多数見つかっている:
Oralに選ばれるレベルのスコアの研究論文にも多数のHallucinationが含まれており、1人の査読者がそれに気づきスコア0を与える、といった事態にもなっているようである:
当該論文はdesk rejectされたので現在は閲覧できないとのこと。
NeurIPS'25ではそもそも査読を通過した研究についても多くのHallucinationが見つかっているとのこと:
ACL2025@ウィーン 参加報告, shirotaro, 2025.10
Paper/Blog Link My Issue
#Article #Tutorial #NLP #ACL Issue Date: 2025-11-15
[Tips] PyTorchにおける動的リンク, Kazuki Fujii, 2025.05
Paper/Blog Link My Issue
#Article Issue Date: 2025-11-14
[Tips] PyTorchをself buildしてinstallする方法, Kazuki Fujii, 2025.03
Paper/Blog Link My Issue
#Article Issue Date: 2025-11-14
LLM開発の裏で行われるデバッグ作業: PyTorch DCP, Kazuki Fujii, 2025.11
Paper/Blog Link My Issue
#Article #LanguageModel #SoftwareEngineering #VisionLanguageModel #One-Line Notes Issue Date: 2025-11-14 Comment
元ポスト:
関連:
- [Tips] PyTorchをself buildしてinstallする方法, Kazuki Fujii, 2025.03
- [Tips] PyTorchにおける動的リンク, Kazuki Fujii, 2025.05
自分たちの環境と目的を考えた時に、複数の選択肢を列挙し、それぞれの利点と欠点を明文化した上で最適なものを選択する。そしてそれを実現する上で見つかった挙動のおかしな部分について、怪しい部分にあたりをつけて、仮説を立てて、中身を確認し、時には一度問題ないと判断した部分にも立ち返りさらに深掘りし、原因を明確にする、といったデバッグ作業(の一つのケース)について詳述されている。
SIMA 2: An Agent that Plays, Reasons, and Learns With You in Virtual 3D Worlds, Google DeepMind, 2025.11
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #Reasoning #ComputerUse #VisionLanguageModel #3D (Scene) #Game Issue Date: 2025-11-14 Comment
元ポスト:
もはやAIがゲームをできるのは当たり前の時代だが、どのくらいOODに汎化するのかは気になる。
Holo2: Cost-Efficient Models for Cross-Platform Computer-Use Agents, H Company, 2025.11
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #AIAgents #OpenWeight #ComputerUse #Selected Papers/Blogs #VisionLanguageModel #Grounding #GUI Issue Date: 2025-11-14 Comment
HF: https://huggingface.co/collections/Hcompany/holo2
元ポスト:
関連:
- Holo1.5 - Open Foundation Models for Computer Use Agents, H Company, 2025.09
GPT-5.1: A smarter, more conversational ChatGPT, OpenAI, 2025.11
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #ChatGPT #Reasoning #Proprietary #Selected Papers/Blogs #Routing #One-Line Notes #Reference Collection Issue Date: 2025-11-13 Comment
元ポスト:
instantモデルはよりあたたかい応答でより指示追従能力を高め、thinkingモデルは入力に応じてより適応的に思考トークン数を調整する。autoモデルは入力に応じてinstant, thinkingに適切にルーティングをする。
所見:
Artificial Analysisによるベンチマーキング:
GPT-5.1-Codex-maxの50% time horizon:
Mapping the AI Supply Chain, Cen+, Stanford University, 2025.11
Paper/Blog Link My Issue
#Article #GenerativeAI Issue Date: 2025-11-12 Comment
元ポスト:
Project AELLA: Custom LLMs to process 100 Million Research Papers, ssam Hogan, 2025.11
Paper/Blog Link My Issue
#Article #DocumentSummarization #NLP #LanguageModel #GenerativeAI #Science Issue Date: 2025-11-12 Comment
100M+の論文に対してAIによる要約を作成し構造化した上でvisualizeすることでよりscientificな情報へのアクセシビリティを高めたい、という話に見える
AI progress and recommendations, OpenAI, 2025.11
Paper/Blog Link My Issue
#Article #GenerativeAI #read-later Issue Date: 2025-11-10 Comment
元ポスト:
RL Learning with LoRA: A Diverse Deep Dive, kalomaze's kalomazing blog, 2025.11
Paper/Blog Link My Issue
#Article #Analysis #NLP #LanguageModel #ReinforcementLearning #PEFT(Adaptor/LoRA) #PostTraining #read-later Issue Date: 2025-11-10 Comment
元ポスト:
所見:
Announcing Ironwood TPUs General Availability and new Axion VMs to power the age of inference, Google Cloud, 2025.11
Paper/Blog Link My Issue
#Article Issue Date: 2025-11-08 Comment
元ポスト:
KTransformers: A New Era of Open Source: Low-Barrier Multi-GPU Inference for Trillion_Trillion Models (w SGLang) and Local Fine-Tuning (w LLaMa-Factory)
Paper/Blog Link My Issue
#Article Issue Date: 2025-11-07 Comment
元ポスト:
Introducing Kimi K2 Thinking, MoonshotAI, 2025.11
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Reasoning #OpenWeight #Selected Papers/Blogs #One-Line Notes #Reference Collection Issue Date: 2025-11-07 Comment
HF: https://huggingface.co/moonshotai
元ポスト:
coding系ベンチマークでは少しGPT5,Claude Sonnet-4.5に劣るようだが、HLE, BrowseCompなどではoutperform
tooluseのベンチマークであるtau^2 Bench TelecomではSoTA
モデルの図解:
INT4-QATに関する解説:
INT4-QATの解説:
Kimi K2 DeepResearch:
METRによる50% timehorizonの推定は54分:
ただしサードパーティのinference providerによってこれは実施されており、(providerによって性能が大きく変化することがあるため)信頼性は低い可能性があるとのこと。
METRでの評価でClaude 3.7 Sonnetと同等のスコア:
openweightモデルがproprietaryモデルに追いつくのはsoftwere engineeringタスク(agenticなlong horizon+reasoningタスク)9ヶ月程度を要しているとのこと
Mapping LLMs with Sparse Autoencoders, Hussein+, 2025.11
Paper/Blog Link My Issue
#Article #Tutorial #NLP #LanguageModel #One-Line Notes #SparseAutoEncoder Issue Date: 2025-11-06 Comment
SparseAutoEncoderを用いた機械学習モデルの特徴の可視化方法に関するチュートリアル
Open-weight models lag state-of-the-art by around 3 months on average, EPOCH AI, 2025.10
Paper/Blog Link My Issue
#Article #Analysis #NLP #LanguageModel #OpenWeight Issue Date: 2025-11-01 Comment
タイトルの通りな模様
元ポスト:
Emergent Introspective Awareness in Large Language Models, Jack Lindsey, Anthropic, 2025.10
Paper/Blog Link My Issue
#Article #Analysis #NLP #LanguageModel #Selected Papers/Blogs Issue Date: 2025-10-31 Comment
元ポスト:
公式ポスト:
Unlocking On-Policy Distillation for Any Model Family, Patiño+, HuggingFace, 2025.10
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Library #ReinforcementLearning #Distillation #On-Policy #reading Issue Date: 2025-10-30 Comment
元ポスト:
- Unlocking On-Policy Distillation for Any Model Family, Patiño+, HuggingFace, 2025.10
で提案されている手法拡張してトークナイザが異なるモデル間でもオンポリシーRLを用いてknowledge distillationを実現できるようなGKD trainerがTRLに実装されたとのこと。
Everything About Transformers, Krupa Dave, 2025.10
Paper/Blog Link My Issue
#Article #Tutorial #NLP #Transformer #One-Line Notes Issue Date: 2025-10-30 Comment
元ポスト:
ざっと見た感じtransformerの基本的な内容の丁寧な解説に見える。literature(RNNや、LSTM、seq2seqなど)、self/cross-attention,LayerNorm, ResidualConnection, PositionalEncodingといった話の基礎が図解付きで説明されている。
Marin 32B Retrospective, marin-community, 2025.10
Paper/Blog Link My Issue
#Article #Pretraining #NLP #LanguageModel #OpenWeight #OpenSource #Selected Papers/Blogs Issue Date: 2025-10-30 Comment
元ポスト:
lossのスケーリング則に基づいた今後の見通し:
pj pageはこちら:
https://marin.community
AIエージェントのためのコンテキストエンジニアリング:Manus構築から得た教訓, Manus AI, 2025.07
Paper/Blog Link My Issue
#Article #NLP #AIAgents #ContextEngineering #reading Issue Date: 2025-10-28 Comment
元ポスト:
KV Cacheのhit率がまず重要で、TTFTの速さと、コストの双方に影響する。1トークンでも異なるとCacheがhitしなくなるので、注意を払う。たとえば、Contextのfeedが決定論的であることを確認し、prompt冒頭にタイムスタンプを含めるなどは避ける。セルフホスティングの場合はルーティングによってCacheが働くように共通のワーカーを一貫して使う。
How we are building the personal health coach, Patel+, 2025.10
Paper/Blog Link My Issue
#Article #LanguageModel #GenerativeAI #Health Issue Date: 2025-10-28 Comment
元ポスト:
fitbitユーザなので普通に気になる
Advancing Claude for Financial Services, Anthropic, 2025.10
Paper/Blog Link My Issue
#Article #NLP #GenerativeAI #Financial #Proprietary Issue Date: 2025-10-28 Comment
元ポスト:
On-Policy Distillation, Thinking Machines, 2025.10
Paper/Blog Link My Issue
#Article #read-later Issue Date: 2025-10-27 Comment
元ポスト:
所見:
解説:
From Monolithic to Modular: Scaling Semantic Routing with Extensible LoRA, vLLM blog, 2025.10
Paper/Blog Link My Issue
#Article #Embeddings #NLP #Encoder #Routing Issue Date: 2025-10-27 Comment
元ポスト:
LangGraph と NeMo Agent Toolkit ではじめる ReAct エージェント, Masaomi Tokunaga+, 2025.10
Paper/Blog Link My Issue
#Article #Tutorial #AIAgents Issue Date: 2025-10-27 Comment
元ポスト:
langchain, langgraphを用いたReActエージェントの実装方法のチュートリアルと、さまざまなフレームワークで記述されたエージェントの差分を吸収して統一されたプラットフォーム上でエージェントを実装できる(framework-agnosticな)NeMo Agent Toolkitによる実装
Recursive Language Models, Zhang+, MIT CSAIL, 2025.10
Paper/Blog Link My Issue
#Article #LanguageModel #RecursiveModels Issue Date: 2025-10-27 Comment
元ポスト:
MiniMax-M2: Intelligence, Performance & Price Analysis, Artificial Analysis, 2025.10
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #OpenWeight #Selected Papers/Blogs #Reference Collection Issue Date: 2025-10-26 Comment
元ポスト:
関連:
- [Paper Note] MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning
Attention, MiniMax+, arXiv'25, 2025.06
CISPOを提案したMiniMax-M1の後続モデルと思われるMiniMax-M2-previewが中国製のモデルでArtificial Intelligenceでの評価でトップに立った模様。
所見:
モデルが公開:
https://huggingface.co/MiniMaxAI/MiniMax-M2
proprietaryモデルになるもんだと思ってた、、、これを公開するの凄すぎでは、、、
公式ポスト:
MITライセンス
vLLMでのserving方法:
https://docs.vllm.ai/projects/recipes/en/latest/MiniMax/MiniMax-M2.html
> You can use 4x H200/H20 or 4x A100/A800 GPUs to launch this model.
上記GPUにおいては--tensor-parallel-size 4で動作する模様。
SGLangでもサポートされている:
AnthropicのAPIの利用をお勧めする理由:
(以下管理人の補足を含みます)MiniMax-M2はAgenticなCoTをするモデルなので、contextの情報を正しく保持する必要がある。特に、マルチターンのやり取りをAPIを介してユーザが実行する場合、OpenAIのchatcompletionはCoTを返してくれず、マルチターンのやり取りをしても同じsessionで利用したとしても、前のターンと同じCoTが利用されないことがドキュメントに記述されている。このような使い方をサポートしているのはResponceAPIのみであるため、ResponceAPIでのみ適切なパフォーマンスが達成される。この点がconfusingなので、誤った使い方をするとMiniMaxの真価が発揮されず、しかもそれに気づけずに使い続けてしまう可能性がある。AnthropicのAPIではSonnet 4.5では全ての応答に明示的にCoTが含まれるため、その心配がない、だからAnthropicがおすすめ、みたいな話だと思われる。
アーキテクチャ解説:
解説:
Introducing torchforge – a PyTorch native library for scalable RL post-training and agentic development, PyTorch team at Meta, 2025.10
Paper/Blog Link My Issue
#Article #NLP #Library #ReinforcementLearning #AIAgents #Selected Papers/Blogs Issue Date: 2025-10-25 Comment
元ポスト:
No More Retokenization Drift: Returning Token IDs via the OpenAI Compatible API Matters in Agent RL, vLLM Blog, 2025.10
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #ReinforcementLearning #Tokenizer #Stability #RetokenizationDrift Issue Date: 2025-10-24 Comment
推論時のトークン化と、結果として返される文字列の再トークン化の際に異なるcontextの元トークン化がされることで(e.g., 異なるテンプレートが利用されるなど)、トークン化の結果が異なりgapが生まれるという問題。この違いがオンポリシーRLなどで学習に不安定にするよ、という話で、vLLMがトークンIDそのものを返せるように仕様変更したよ、といった話らしい。
トークン化の不一致という文脈で言うと下記のような研究もある
- [Paper Note] Addressing Tokenization Inconsistency in Steganography and Watermarking Based on Large Language Models, Ruiyi Yan+, EMNLP'25
Introducing ControlArena: A library for running AI control experiments, AISI, 2025.10
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Safety Issue Date: 2025-10-23 Comment
元ポスト:
Introducing ChatGPT Atlas, OpenAI, 2025.10
Paper/Blog Link My Issue
#Article #ChatGPT #GenerativeAI Issue Date: 2025-10-23 Comment
元ポスト:
ブラウザのサイドバーでchatgptにサイトに関して質問できたり、agenticな使い方もできる模様?
The Continual Learning Problem, Jessy Lin, 2025.10
Paper/Blog Link My Issue
#Article #read-later #ContinualLearning Issue Date: 2025-10-23 Comment
元ポスト:
Production RAG: what I learned from processing 5M+ documents, Abdellatif Abdelfattah, 2025.10
Paper/Blog Link My Issue
#Article #RAG(RetrievalAugmentedGeneration) #SoftwareEngineering Issue Date: 2025-10-23 Comment
元ポスト:
NTT版大規模言語モデル「tsuzumi 2」, NTT人間情報研究所, 2025.10
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Proprietary Issue Date: 2025-10-22 Comment
日本語MT-benchでGPT-5と同等程度の性能とのこと。VRAM40GB未満の1GPUで動作させることを念頭に開発されており、フルスクラッチ、かつ学習データも完全にコントロールしデータの権利、品質、バイアスの管理可能にしているとのこと。
BERT is just a Single Text Diffusion Step, Nathan Barry, 2025.10
Paper/Blog Link My Issue
#Article #DiffusionModel Issue Date: 2025-10-21 Comment
元ポスト:
所見:
How to scale RL, NATHAN LAMBERT, 2025.10
Paper/Blog Link My Issue
#Article #NLP #ReinforcementLearning #Scaling Laws #read-later #Selected Papers/Blogs #reading Issue Date: 2025-10-21 Comment
元ポスト:
下記研究の内容を解説している。
- [Paper Note] The Art of Scaling Reinforcement Learning Compute for LLMs, Devvrit Khatri+, arXiv'25, 2025.10
事前学習におけるスケーリング測は大規模な事前学習実行時の最適な設定の選択に関するもの(e.g. chinchilla law)だったが、RL(=特定のベースモデルから最大限の性能を引き出すための手法)のスケーリング則においてはどのアルゴリズムをより長期間実行させるかという選択に焦点を当てている。
(後で続きを読む)
How Well Does RL Scale?, Toby Ord, 2025.10
Paper/Blog Link My Issue
#Article #NLP #ReinforcementLearning #Test-Time Scaling #Scaling Laws #PostTraining #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-10-21 Comment
元ポスト:
OpenAIやAnthropicが公表している学習に関するplot(と筆者の様々なアカデミアの研究の知見)に基づいて、RLによるスケーリングは、事前学習やTest-time Scalingよりも計算量の観点で効率が悪い、ということを分析している模様。
> So the evidence on RL-scaling and inference-scaling supports a general pattern:
>- a 10x scaling of RL is required to get the same performance boost as a 3x scaling of inference
> - a 10,000x scaling of RL is required to get the same performance boost as a 100x scaling of inference
>
> In general, to get the same benefit from RL-scaling as from inference-scaling required twice as many orders of magnitude. That’s not good.
その上で、RLによるコストが事前学習のコストと同等かそれ以上となったときに、モデルの性能をスケールさせる場合のコストが爆発的に増加することを指摘している(初期のRLによるコストが小さければ事前学習やtest-time scalingのデータを増やすよりも効率がよいスケーリング手法となっていたが、RLのコストが大きくなってくるとスケールさせる際の金額の絶対値が大きくなりすぎるという話)。
Andrej Karpathy — AGI is still a decade away, DWARKESH PATEL, 2025.10
Paper/Blog Link My Issue
#Article #Pretraining #MachineLearning #NLP #LanguageModel #ReinforcementLearning #AIAgents #In-ContextLearning #RewardHacking #PostTraining #Diversity #Selected Papers/Blogs #PRM #Generalization #Cultural #Emotion #ContinualLearning Issue Date: 2025-10-20 Comment
元ポスト:
関連:
- In-context Steerbility: [Paper Note] Spectrum Tuning: Post-Training for Distributional Coverage and
In-Context Steerability, Taylor Sorensen+, arXiv'25, 2025.10
(整理すると楽しそうなので後で関連しそうな研究を他にもまとめる)
とても勉強になる!AIに代替されない20%, 1%になるには果たして
所見:
modded-nanogpt medium world record: Re-using intermediate activations in the output latents, shimu's blog, 2025.10
Paper/Blog Link My Issue
#Article #EfficiencyImprovement #NLP #LanguageModel #read-later Issue Date: 2025-10-20 Comment
元ポスト:
Find3D: Localizing Semantic Concepts in the 3D Space , Ziqi Ma, 2025.10
Paper/Blog Link My Issue
#Article #ComputerVision #ObjectLocalization #3D (Scene) Issue Date: 2025-10-20 Comment
元ポスト:
Introducing SWE-grep and SWE-grep-mini: RL for Multi-Turn, Fast Context Retrieval, Cognition, 2025.10
Paper/Blog Link My Issue
#Article #Multi #EfficiencyImprovement #ReinforcementLearning #AIAgents #Proprietary #Parallelism #ContextEngineering #KeyPoint Notes Issue Date: 2025-10-18 Comment
元ポスト:
最大で4 turnの間8つのツールコール(guessingとしては従来モデルは1--2, Sonnet-4.5は1--4)を並列する(3 turnは探索、最後の1 turnをanswerのために使う) parallel tool calls を効果的に実施できるように、on policy RLでマルチターンのRLを実施することで、高速で正確なcontext retrievalを実現した、という感じらしい。
従来のembedding-basedなdense retrieverは速いが正確性に欠け、Agenticなsearchは正確だが遅いという双方の欠点を補う形。
parallel tool callというのは具体的にどういうtrajectoryになるのか…?
Context Engineering in Manus, Lance's Blog, 2025.10
Paper/Blog Link My Issue
#Article #Tutorial #NLP #AIAgents #ContextEngineering #One-Line Notes Issue Date: 2025-10-18 Comment
元ポスト:
- Reduce
- Offload
- Isolate
図解つきで各コンセプトについて非常に詳細に記述されている。最後のConclusionを見ればコンパクトに概要をつかめる。
Evaluating Long Context (Reasoning) Ability, wh., 2025.10
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Evaluation #Reasoning #LongSequence Issue Date: 2025-10-17 Comment
元ポスト:
Harnessを利用してLLMアプリケーション評価を自動化する, LINEヤフー テックブログ, 2024.12
Paper/Blog Link My Issue
#Article #LanguageModel #MLOps #AIAgents #SoftwareEngineering Issue Date: 2025-10-13
STATE OF AI REPORT 2025, Nathan Benaich, 2025.10
Paper/Blog Link My Issue
#Article #Survey #LanguageModel #GenerativeAI #read-later Issue Date: 2025-10-11 Comment
元ポスト:
所見:
A History of Large Language Models, Gregory Gundersen, 2025.10
Paper/Blog Link My Issue
#Article #Tutorial #NLP #LanguageModel #read-later Issue Date: 2025-10-11 Comment
元ポスト:
画像生成AIにおけるEulerサンプラーの詳細解説, あらもり, 2024.07
Paper/Blog Link My Issue
#Article #ComputerVision #DiffusionModel #Samplers Issue Date: 2025-10-10
Stable Diffusionにおけるサンプラーの役割を理解する, moykeen, 2024.01
Paper/Blog Link My Issue
#Article #ComputerVision #DiffusionModel #Samplers Issue Date: 2025-10-10
Introducing Stable Diffusion 3.5, StabilityAI, 2024.10
Paper/Blog Link My Issue
#Article #ComputerVision #Transformer #DiffusionModel #TextToImageGeneration #OpenWeight #Selected Papers/Blogs Issue Date: 2025-10-10 Comment
SD3.5
Making AI citations count with Asta, AI2, 2025.10
Paper/Blog Link My Issue
#Article #Citations #NLP #AIAgents #ScientificDiscovery #One-Line Notes Issue Date: 2025-10-09 Comment
RAGベースの研究支援プラットフォームAstaに対して送信されたクエリに対して、システムが引用した研究論文に関する統計情報を公開したとのこと。興味深い。
citationに関するデータはこちら:
https://huggingface.co/datasets/allenai/asta-summary-citation-counts
定期的に更新するとのこと。
LFM2-8B-A1B: An Efficient On-device Mixture-of-Experts, LiquidAI, 2025.10
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #SmallModel #OpenWeight #MoE(Mixture-of-Experts) #RecurrentModels Issue Date: 2025-10-08 Comment
HF: https://huggingface.co/LiquidAI/LFM2-8B-A1B
元ポスト:
日本語もサポートしているとのこと
関連:
- Introducing LFM2: The Fastest On-Device Foundation Models on the Market, LiquidAI, 2025.07
OpenAI DevDay 2025 発表まとめ, ぬこぬこ, 2025.10
Paper/Blog Link My Issue
#Article #Tutorial #ChatGPT Issue Date: 2025-10-08 Comment
元ポスト:
Anatomy of a Modern Finetuning API, Benjamin Anderson, 2025.10
Paper/Blog Link My Issue
#Article #MachineLearning #Supervised-FineTuning (SFT) #PEFT(Adaptor/LoRA) #SoftwareEngineering #KeyPoint Notes Issue Date: 2025-10-06 Comment
関連:
- Tinker is a training API for {developers, builders, researchers}, THINKING MACHINES, 2025.10
2023年当時のFinetuningの設計について概観した後、TinkerのAPIの設計について説明。そのAPIの設計のstepごとにTinker側にデータを送るという設計について、一見すると課題があることを指摘(step単位の学習で数百msの通信オーバヘッドが生じて、その間Tinker側のGPUは待機状態になるため最大限GPUリソースを活用できない。これは設計ミスなのでは・・・?という仮説が成り立つという話)。が、仮にそうだとしても、実はよくよく考えるとその課題は克服する方法あるよ、それを克服するためにLoRAのみをサポートしているのもうなずけるよ、みたいな話である。
解決方法の提案(というより理論)として、マルチテナントを前提に特定ユーザがGPUを占有するのではなく、複数ユーザで共有するのではないか、LoRAはadapterの着脱のオーバヘッドは非常に小さいのでマルチテナントにしても(誰かのデータの勾配計算が終わったらLoRAアダプタを差し替えて別のデータの勾配計算をする、といったことを繰り返せば良いので待機時間はかなり小さくなるはずで、)GPUが遊ぶ時間が生じないのでリソースをTinker側は最大限に活用できるのではないか、といった考察をしている。
ブログの筆者は2023年ごろにFinetuningができるサービスを展開したが、データの準備をユーザにゆだねてしまったがために成功できなかった旨を述べている。このような知見を共有してくれるのは大変ありがたいことである。
Frontier AI performance becomes accessible on consumer hardware within a year, EPOCH AI, 2025.08
Paper/Blog Link My Issue
#Article #LanguageModel #read-later Issue Date: 2025-10-05 Comment
元ポスト:
The browser that works for you, Perplexity, 2025.10
Paper/Blog Link My Issue
#Article #GenerativeAI Issue Date: 2025-10-03 Comment
めちゃ使いたい
元ポスト:
OpenMoE 2: Sparse Diffusion Language Models, Ni+, 2025.10
Paper/Blog Link My Issue
#Article #Pretraining #NLP #LanguageModel #DiffusionModel #MoE(Mixture-of-Experts) #read-later Issue Date: 2025-10-03 Comment
元ポスト:
Pepper: A Real‑Time, Event‑Driven Architecture for Proactive Agentic Systems, Agentica Team, 2025.10
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Library #AIAgents #Personalization #Architecture #interactive Issue Date: 2025-10-03 Comment
元ポスト:
受動的なエージェントではなく、ユーザに対して能動的に働きかけてくるイベントドリブンなAI Agentのアーキテクチャ提案と、そのためのライブラリな模様。
Ming-UniAudio: Speech LLM for Joint Understanding, Generation and Editing with Unified Representation, inclusionAI, 2025.07
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #SpeechProcessing #OpenWeight #Editing Issue Date: 2025-10-03 Comment
元ポスト:
Ming-Omniの後継モデルで、スピーチに特化して書き起こし、理解、編集などができるモデル
HF: https://huggingface.co/inclusionAI/Ming-UniAudio-16B-A3B
公式ポスト:
Tinker is a training API for {developers, builders, researchers}, THINKING MACHINES, 2025.10
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #PEFT(Adaptor/LoRA) #API #PostTraining #KeyPoint Notes Issue Date: 2025-10-03 Comment
元ポスト:
THINKING MACHINESによるOpenWeightモデルをLoRAによってpost-trainingするためのAPI。QwenとLlamaをベースモデルとしてサポート。現在はBetaでwaitlistに登録する必要がある模様。
(Llamaのライセンスはユーザ数がアクティブユーザが7億人を超えたらMetaの許諾がないと利用できなくなる気がするが、果たして、とふと思った)
この前のブログはこのためのPRも兼ねていたと考えられる:
- LoRA Without Regret, Schulman+, THINKING MACHINES, 2025.09
ドキュメントはこちら:
https://tinker-docs.thinkingmachines.ai
Tinkerは、従来の
- データセットをアップロード
- 学習ジョブを走らせる
というスタイルではなく、ローカルのコードでstep単位の学習のループを書き以下を実行する:
- forward_backwardデータ, loss_functionをAPIに送る
- これにより勾配をTinker側が蓄積する
- optim_step: 蓄積した勾配に基づいてモデルを更新する
- sample: モデルからサンプルを生成する
- save_state等: 重みの保存、ロード、optimizerのstateの保存をする
これらstep単位の学習に必要なプリミティブなインタフェースのみをAPIとして提供する。これにより、CPUマシンで、独自に定義したloss, dataset(あるいはRL用のenvironment)を用いて、学習ループをコントロールできるし、分散学習の複雑さから解放される、という代物のようである。LoRAのみに対応している。
なお、step単位のデータを毎回送信しなければならないので、stepごとに通信のオーバヘッドが発生するなんて、Tinker側がGPUを最大限に活用できないのではないか。設計としてどうなんだ?という点については、下記ブログが考察をしている:
- Anatomy of a Modern Finetuning API, Benjamin Anderson, 2025.10
ざっくり言うとマルチテナントを前提に特定ユーザがGPUを占有するのではなく、複数ユーザで共有するのではないか、adapterの着脱のオーバヘッドは非常に小さいのでマルチテナントにしても(誰かのデータの勾配計算が終わったらLoRAアダプタを差し替えて別のデータの勾配計算をする、といったことを繰り返せば良いので待機時間はかなり小さくなるはずで、)GPUが遊ぶ時間が生じないのでリソースをTinker側は最大限に活用できるのではないか、といった考察/仮説のようである。
所見:
Asyncな設定でRLしてもSyncな場合と性能は同等だが、学習が大幅に高速化されて嬉しいという話な模様(おまけにrate limitが現在は存在するので今後よりブーストされるかも
Information Bandwidth in Reinforcement Learning Understanding Sample Efficiency Through Signal Density, Yingru Li, 2025.10
Paper/Blog Link My Issue
#Article #Analysis #ReinforcementLearning #read-later Issue Date: 2025-10-03 Comment
元ポスト:
2025年10月1日 国立情報学研究所における大規模言語モデル構築への協力について, 国立国会図書館, 2025.09
Paper/Blog Link My Issue
#Article #NLP #Dataset #LanguageModel #Japanese #Selected Papers/Blogs Issue Date: 2025-10-01 Comment
元ポスト:
日本語LLMの進展に極めて重要なニュースと思われる
Introducing Claude Sonnet 4.5, Anthropic, 2025.09
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Proprietary Issue Date: 2025-09-30 Comment
元ポスト:
Claude Sonnet 4.5 発表関連情報まとめ:
記事:
https://zenn.dev/schroneko/articles/claude-sonnet-4-5
元ポスト:
ブログを読むとImagine with Claudeの方がむしろ気になる...(残念ながら課金していない)
https://claude.ai/login?returnTo=%2Fimagine
Artificial Intelligenceによる評価:
LLM のアテンションと外挿, 佐藤竜馬, 2025.09
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Attention #read-later Issue Date: 2025-09-30 Comment
元ポスト:
LoRA Without Regret, Schulman+, THINKING MACHINES, 2025.09
Paper/Blog Link My Issue
#Article #PEFT(Adaptor/LoRA) #read-later #Selected Papers/Blogs Issue Date: 2025-09-30 Comment
元ポスト:
これはおそらく必読...
解説:
解説:
所見:
Failing to Understand the Exponential, Again, Julian Schrittwieser, 2025.09
Paper/Blog Link My Issue
#Article #LanguageModel #Evaluation #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-09-29 Comment
元ポスト:
関連:
- [Paper Note] Measuring AI Ability to Complete Long Tasks, Thomas Kwa+, arXiv'25, 2025.03
- GDPVAL: EVALUATING AI MODEL PERFORMANCE ON REAL-WORLD ECONOMICALLY VALUABLE TASKS, Patwardhan+, 2025.09
AIの指数関数的な成長は続いているぞという話。
以下は管理人の感想だが、個々のベンチマークで見たらサチってきている(昔より伸び代が小さい)ように感じるが、人間が実施する複雑なタスクに対する上記ベンチマークなどを見るとスケーリングは続いている(むしろ加速している感がある)。シンプルなタスクのベンチマークの伸びは小さくとも、それらシンプルなタスクの積み重ねによって複雑なタスクは実施されるので、(現存するベンチマークが測定できている能力はLLMの部分的な能力だけなことも鑑みると)、複雑なタスクで評価した時の伸びは実は大きかったりする(スケーリングは続いている)のではないか、という感想。
Why GPT-5 used less training compute than GPT-4.5 (but GPT-6 probably won’t), EPOCH AI, 2025.09
Paper/Blog Link My Issue
#Article #Analysis #Pretraining #NLP #LanguageModel #ChatGPT #PostTraining Issue Date: 2025-09-29 Comment
元ポスト:
How to Fix Your Context, dbreunig.com, 2025.07
Paper/Blog Link My Issue
#Article #DocumentSummarization #InformationRetrieval #NLP #AIAgents #Pruning #RAG(RetrievalAugmentedGeneration) #SoftwareEngineering #ContextEngineering Issue Date: 2025-09-28 Comment
Context Poisoning, Context Distraction, Context Confusion,
Context Clashの定義とそれらの対処法について書かれている。後ほど追記する
Continuing to bring you our latest models, with an improved Gemini 2.5 Flash and Flash-Lite release, Google Deepmind, 2025.09
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Reasoning #Proprietary Issue Date: 2025-09-28 Comment
元ポスト:
We reverse-engineered Flash Attention 4, Modal Blog, 2025.09
Paper/Blog Link My Issue
#Article #EfficiencyImprovement #NLP #LanguageModel #Attention #SoftwareEngineering #One-Line Notes Issue Date: 2025-09-28 Comment
元ポスト:
Flash Attention4は数学的なトリックよりも非同期処理の複雑なパイプライン、Blackwellに最適化、とのこと
RDT2: Enabling Zero-Shot Cross-Embodiment Generalization by Scaling Up UMI Data, RDT Team, 2025.09
Paper/Blog Link My Issue
#Article #FoundationModel #Robotics #VisionLanguageActionModel #EmbodiedAI Issue Date: 2025-09-27 Comment
元ポスト:
ロボットアームのさまざまなアクションをzeroshotで実現できる基盤モデルらしい
When Speed Kills Stability: Demystifying RL Collapse from the Training-Inference Mismatch, Liu+, 2025.09
Paper/Blog Link My Issue
#Article #Analysis #MachineLearning #NLP #LanguageModel #ReinforcementLearning #AIAgents #Selected Papers/Blogs #Stability #train-inference-gap Issue Date: 2025-09-27 Comment
元ポスト:
訓練時のエンジン(fsdp等)とロールアウト時のエンジン(vLLM等)が、OOVなトークンに対して(特にtooluseした場合に生じやすい)著しく異なる尤度を割り当てるため学習が崩壊し、それは利用するGPUによっても安定性が変化し(A100よりもL20, L20よりもH20)、tokenレベルのImporttance Weightingでは難しく、Sequenceレベルのサンプリングが必要、みたいな話な模様。
関連:
- Your Efficient RL Framework Secretly Brings You Off-Policy RL Training, Yao+, 2025.08
- [Paper Note] Group Sequence Policy Optimization, Chujie Zheng+, arXiv'25
FP16にするとtrain-inferenae gapが非常に小さくなるという報告:
- [Paper Note] Defeating the Training-Inference Mismatch via FP16, Penghui Qi+, arXiv'25, 2025.10
A100でvLLMをバックボーンにした時のdisable_cascade_attnの設定値による挙動の違い:
そもそもFlashAttnention-2 kernelにバグがあり、A100/L20で特定のカーネルが呼ばれるとミスマッチが起きるのだとか。vLLM Flashattentionリポジトリのissue 87によって解決済み。~~具体的にどのカーネル実装なのだろうか。~~ (vLLM Flashattentionリポジトリだった模様)
https://github.com/vllm-project/flash-attention
disable_cascade_attnの設定値を何回も変えたけどうまくいかないよという話がある:
Modular Manifolds, Jeremy Bernstein+, THINKING MACHINES, 2025.09
Paper/Blog Link My Issue
#Article #NeuralNetwork #MachineLearning #NLP #Optimizer #read-later Issue Date: 2025-09-27 Comment
関連:
Introducing LFM2: The Fastest On-Device Foundation Models on the Market, LiquidAI, 2025.07
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #FoundationModel #OpenWeight #RecurrentModels #Operator #EdgeDevices Issue Date: 2025-09-26 Comment
元ポスト:
LiquidAIによるedgeデバイス向けのFoundation Model。品質、スピード、メモリ、ハードウェアのバランスを最適にしておるとのこと。たとえばQwenと比較して2倍のデコードとprefill速度とのこと。また、同サイズのモデル群よりも高い性能を実現しているらしい。
下記グラフはMMLU, IFEval,IFBENCH,GSM8K,MMMLUでの評価の平均。他にもGPQA,MGSMでも評価しており、同サイズのモデルと比べて同等か少し劣るくらい。
アーキテクチャはRNNをベースにしており、従来の時間がstepごとに発展するRNNではなく、連続時間を扱えるようなRNNの変種なようでより柔軟に時間スケールを扱えるようなアーキテクチャらしい。また、LIV Operatorと呼ばれる入力に応じて動的に異なる線形変換を実施するOperatorを採用している模様。たとえば入力に応じて、convolution, attention, recurrenceなどのoperationが変化する。これに基づいて、さまざまなアーキテクチャのNNを定義できるようになったので、最適なアーキテクチャを模索するためにSTARと呼ばれるアルゴリズムでNeural Architecture Searchを実施した模様。
メモリに制約があるエッジデバイス向けにKVCache不要で現在の隠れ状態のみを保持すれば良いRNNベースのアーキテクチャを採用するのは理に適っている。
日本語解説: https://qiita.com/peony_snow/items/36fb856925c2d7beef26
様々なコンテキスト長における LLM の Self-Attention の Query と Key の分析, ABEJA Tech Blog, 2025.09
Paper/Blog Link My Issue
#Article #Analysis #NLP #Attention Issue Date: 2025-09-26 Comment
元ポスト:
以下の研究を参考に分析している:
- [Paper Note] Massive Values in Self-Attention Modules are the Key to Contextual Knowledge Understanding, Mingyu Jin+, ICML'25, 2025.02
Massive ValueはtransformerのQ,Kの活性値に現れる極端に大きな値のことで、Massive Valueは文脈的な知識の理解において重要とのこと(Massive Valueを破壊すると文脈理解が重要なタスクのスコアは著しく低下したが、パラメトリックな知識が重要なタスクは性能が少し低下するのみ、かつ非Massive Valueを破壊しても大きな変化は無かったため)。またMassive ValueはRoPEを使ったモデルのみQ, Kの特定の次元にのみ集中して出現する。これはRoPEでは回転行列をQ, Kにのみ適用していることに起因している可能性があるが、回転行列の積の前後でもMassive Valueが出現することは変わらないことから、回転行列そのものに起因するものというより、回転行列がアーキテクチャに組み込まれることで結果的に学習されるものなのではないか、という感じらしい。
HMMT. HMMT 2025, 2025.09
Paper/Blog Link My Issue
#Article #Dataset #Evaluation #Mathematics Issue Date: 2025-09-24 Comment
サイト内部の説明によると、ハーバード、MIT、そして近隣の学校の学生たちによって運営されている世界で最大、かつ最も権威のある高校生向けの国際的な数学のコンペティション、とのこと。
Qwen3-Max: Just Scale it, Qwen Team, 2025.09
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Proprietary #MoE(Mixture-of-Experts) Issue Date: 2025-09-24 Comment
元ポスト:
現在はnon-thinkingモデルのみのようだがthinkingモデルも学習中で、GPQA, HMMT, AIME25でのベンチマーク結果のみ掲載されている。
HMMTというのは以下な模様:
- HMMT. HMMT 2025, 2025.09
Qwen3‑LiveTranslate: Real‑Time Multimodal Interpretation — See It, Hear It, Speak It!, Qwen Team, 2025.09
Paper/Blog Link My Issue
#Article #MachineTranslation #NLP #LanguageModel #MultiModal #Proprietary Issue Date: 2025-09-24 Comment
元ポスト:
Vibe Coding Cleanup as a Service, Donado Labs, 2025.09
Paper/Blog Link My Issue
#Article #AIAgents #Coding Issue Date: 2025-09-23 Comment
元ポスト:
LoRAの進化:基礎から最新のLoRA-Proまで , 松尾研究所テックブログ, 2025.09
Paper/Blog Link My Issue
#Article #Tutorial #NLP #LanguageModel #Supervised-FineTuning (SFT) #PEFT(Adaptor/LoRA) #PostTraining Issue Date: 2025-09-22 Comment
元ポスト:
関連:
- [Paper Note] LoRA-Pro: Are Low-Rank Adapters Properly Optimized?, Zhengbo Wang+, ICLR'25, 2024.07
- LoRA+: Efficient Low Rank Adaptation of Large Models, Soufiane Hayou+, N/A, ICML'24
Grok 4 Fast, xAI, 2025.09
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #MultiModal #Reasoning #VisionLanguageModel Issue Date: 2025-09-21 Comment
ベンチマークに対する評価結果以外の情報はほぼ記述されていないように見える(RL使いました程度)
Artificial Analysisによる評価:
コスト性能比の所見:
Agent Payments Protocol (AP2), Google, 2025.09
Paper/Blog Link My Issue
#Article #AIAgents Issue Date: 2025-09-17 Comment
AI Agentにpaymentをさせるためのsecureなプロトコルな模様
元ポスト:
Large reasoning models research at COLM 2025 - State of research in scaling reasoning, the current paradigm for improving LLMs, PRAKASH KAGITHA, 2025.09
Paper/Blog Link My Issue
#Article #Survey #LanguageModel #Reasoning #COLM Issue Date: 2025-09-15 Comment
COLM'25における30個程度のReasoningに関わる論文をカバーしたブログらしい。
元ポスト:
ここの論文のサマリのまとめといった感じなので、indexとして利用すると良さそう。
Kimi-Researcher End-to-End RL Training for Emerging Agentic Capabilities, MoonshotAI, 2025.06
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Proprietary #DeepResearch Issue Date: 2025-09-13
Cosmopedia: how to create large-scale synthetic data for pre-training, Allal+(HuggingFace), 2024.03
Paper/Blog Link My Issue
#Article #Pretraining #NLP #Dataset #LanguageModel #SyntheticData Issue Date: 2025-09-13 Comment
cosmopedia dataset: https://huggingface.co/datasets/HuggingFaceTB/cosmopedia
大部分を合成データで学習したPhi-1.5([Paper Note] Textbooks Are All You Need II: phi-1.5 technical report, Yuanzhi Li+, arXiv'23, 2023.09
)のデータ合成のレシピの詳細は明かされておらず、学習データ自体も公開されていないことを受け、事前学習で利用可能な数百Mサンプルの合成データを生成するレシピはなんなのか?を探った話。
最終的に、30Mのpromptをprompt engineeringをMixtral-8x7B-Instruct-v0.1を通じて作成し、高品質なpretrainingのための広範なトピックの文書群を作成。合成された内容の重複は1%未満。
Phi-1.5の論文の記述に基づくと、20k topicsをseedとし新たなsynthetic dataを作成、web sampleを活用して多様性を担保した、という記述がある。これに基づくと、仮に1ファイルの長さを1000 tokenであると仮定すると、20Mのpromptが活用されたことになる。しかしながら、web sampleを組み合わせる方法と、多様性を増やす方法がクリアではなかった。
Cosmopediaのアプローチとしては、2つのアプローチがある。まず curated educational sources (Khan Academy, OpenStax, WikiHow, Stanford courses)を利用する方法で、これらの全てのユニットを合計しても260k程度であった。これでは到底20Mには届かないため、生成する文書の `style` と `audience` に幅を持たせることで、promptの数を増やした。
具体的には、styleとして、academic textbook / blog post / wikihow articles の3種類、audienceとして young children / high school students / college students / researchers の4種類を用意した。このとき、単にprompt中で特定のaudience/styleで記述するよう指示をしても、同じような内容しか出力されない課題があったため、prompt engineeringによって、より具体的な指示を加えることで解決(Figure3)。
続いてのアプローチはweb dataを活用するアプローチで、収集されたweb samplesを145のクラスタに分類し、各クラスタごとに10個のランダムなサンプルを抽出し、Mixtralにサンプルから共通のトピックを抽出させることでクラスタのトピックを得る。
その後不適切なトピックは除外(e.g., アダルトコンテンツ, ゴシップ等)。その後、クラスタのweb sampleとトピックの双方をpromptに与えて関連するtextbookを生成させるpromptを作成 (Figure 4)。このとき、トピックラベルの生成がうまくいっていない可能性も考慮し、トピックをgivenにしないpromptも用意した。最終的にこれにより23Mのpromptを得た。また、scientificな内容を増やすために、AutoMathText (数学に関して収集されたデータセット)も加えた。
上記promptで合成したデータでモデルを学習したところ、モデルにcommon senseやgrade school educationにおける典型的な知識が欠けていることが判明したため、UltraChatやOpenHermes2.5から日常に関するストーリーを抽出してseed dataに加えた。
下記が最終的なseed-data/format/audienceの分布となる。seed-dataの大部分はweb-dataであることがわかる。
最終的に合成データのうち、10-gram overlapに基づいて、contaminationの疑いがある合成データを抽出。ベンチマークデータのうち、50%のsub-stringとマッチした文書は除外することでdecontaminationを実施。
下表がdecontaminationの結果で、()内の数字がユニーク数。decontaminationをしなければこれらが学習データに混入し、ベンチマーキング性能に下駄をはかせることになってしまっていたことになる。
1Bモデルを訓練した結果、半分程度のベンチマークでTinyLlama 1.1Bよりも高いスコアを達成。Qwen-1.5-1BやPhi-1.5に対しては全体としてスコアでは負けているように見える。このことより、より高品質な合成データ生成方法があることが示唆される。
以後、SmolLM構築の際にCosmopediaのpromptに挿入するサンプルをトピックごとにより適切に選択する(文書を合成するモデルをMixtralから他のモデルに変更してもあまり効果がなかったとのこと)などの改善を実施したCosmopedia v2が構築されている。
画像モデルのバックボーンとして最初に何を選ぶべきか?, ちくわぶ, 2025.09
Paper/Blog Link My Issue
#Article #ComputerVision #Analysis #Backbone Issue Date: 2025-09-13 Comment
こちらの論文を参考にしている:
- [Paper Note] Battle of the Backbones: A Large-Scale Comparison of Pretrained Models across Computer Vision Tasks, Micah Goldblum+, NeurIPS'23
Backbone選定の際は参照のこと。2024年以後のモデルは含まれていない点に注意。
Attention ls Off By One, Evanmiller.org, 2023.07
Paper/Blog Link My Issue
#Article #Tutorial #MachineLearning #NLP #Transformer #Attention #AttentionSinks #Selected Papers/Blogs Issue Date: 2025-09-12 Comment
Attention Scoreの計算におけるSoftmax関数はその性質上必ずいずれかのトークンに値を割り振らなければならないが、headがどこにも注意を向けたくない場合に、Softmax関数の性質上そうすることができない。たとえば、headがどのトークンにもスコアを割り振りたくなく、全てのトークンに対して負のlimitをとるような例を考えたときに、headはどこにも注意を向けたくないにもかかわらず、何らかのトークンにスコアは割り振られてしまう。これによって強制的に何らかのトークンに注意を向けざるを得なくなるが、本来はこのような場合はどこにも注意を向けないような挙動ができるようになるべきである。それを改善するために、ソフトマックス関数の分母に1を加えるシンプルな修正を加えた関数Softmax_1を提案しており、ソフトマックス関数の出力ベクトルのスコアの総和が1未満を取れる(言い換えると各スコアが0に近づくことができる)ような修正を提案している。
Attention Sinksと問題意識が同じであり、このブログの二か月後にAttention Sinkを指摘した研究がarXivに投稿される、という時系列に見える。
- [Paper Note] Efficient Streaming Language Models with Attention Sinks, Guangxuan Xiao+, ICLR'24
Qwen3-Next: Towards Ultimate Training & Inference Efficiency, Qwen Team, 2025.09
Paper/Blog Link My Issue
#Article #read-later Issue Date: 2025-09-12 Comment
元ポスト:
関連:
- [Paper Note] Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free, Zihan Qiu+, NeurIPS'25 Best Paper
- [Paper Note] A Systematic Analysis of Hybrid Linear Attention, Dustin Wang+, arXiv'25
Artificial Intelligenceによる評価:
Context Engineering - Short-Term Memory Management with Sessions from OpenAI Agents SDK, OpenAI, 2025.09
Paper/Blog Link My Issue
#Article #Tutorial #NLP #LanguageModel #AIAgents #ContextEngineering Issue Date: 2025-09-11 Comment
元ポスト:
Defeating Nondeterminism in LLM Inference, Horace He in collaboration with others at Thinking Machines, 2025.09
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #python #read-later #Selected Papers/Blogs #Non-Determinism Issue Date: 2025-09-11 Comment
元ポスト:
ポイント解説:
vLLMにおいてinferenceをdeterministicにする方法が、vLLMのissue number 24583に記載されているので参照のこと。
transformersでの実装例:
Scaling Laws for Value-Based RL, Fu+, 2025.09
Paper/Blog Link My Issue
#Article #ReinforcementLearning #Scaling Laws #read-later Issue Date: 2025-09-10 Comment
元ポスト:
元論文:
- [Paper Note] Compute-Optimal Scaling for Value-Based Deep RL, Preston Fu+, arXiv'25
- [Paper Note] Value-Based Deep RL Scales Predictably, Oleh Rybkin+, ICML'25
オープンデータセットのライセンスガイド, サナミ, 2024.12
Paper/Blog Link My Issue
#Article #Tutorial #Dataset Issue Date: 2025-09-07
Writing Code Was Never The Bottleneck, ordep.dev, 2025.06
Paper/Blog Link My Issue
#Article #GenerativeAI #Coding Issue Date: 2025-09-07 Comment
元ポスト:
From f(x) and g(x) to f(g(x)): LLMs Learn New Skills in RL by Composing Old Ones, Yuan+, 2025.09
Paper/Blog Link My Issue
#Article #Analysis #NLP #LanguageModel #ReinforcementLearning #Composition #read-later #Selected Papers/Blogs Issue Date: 2025-09-06 Comment
元ポスト:
コントロールされた実験において、深さ2のnestedなcompostition g(f(x))のデータでRLした場合は、テスト時に深さ6までのcompostitionを実行できるようになったが(=メタスキルとしてcompostitionを獲得した)、深さ1のnon-nestedなデータでRLした場合は複雑なcompostitionが必要なタスクを解けなかった。また、一般的にベースモデルがある程度解ける問題に対してRLを適用したモデルのpass@1000はあまり向上しないことから、RLは新しいスキルを何も教えていないのではないか、といった解釈がされることがあるが、より高次のcompostitionが必要なタスクで評価すると明確に性能が良くなるので、実はより高次のcompostitionが必要なタスクに対する汎化性能を伸ばしている。compostitionでの能力を発揮するにはまず幅広いatomicなスキルが必要なので、しっかりそれを事前学習で身につけさせ、その後post-trainingによって解決したいタスクのためのatomic skillのcompostitionの方法を学習させると効果的なのではないか、といった話な模様。
この辺のICLの話と似ている
- What Do Language Models Learn in Context? The Structured Task Hypothesis, Jiaoda Li+, N/A, ACL'24
FineVision: Open Data Is All You Need, Wiedmann+, Hugging Face, 2025.09
Paper/Blog Link My Issue
#Article #ComputerVision #Pretraining #NLP #Dataset #Selected Papers/Blogs #VisionLanguageModel Issue Date: 2025-09-05 Comment
HF: https://huggingface.co/datasets/HuggingFaceM4/FineVision
元ポスト:
信頼できるLLM-as-a-Judgeの構築に向けた研究動向, tsurubee, 2025.09
Paper/Blog Link My Issue
#Article #Survey #NLP #LLM-as-a-Judge #read-later Issue Date: 2025-09-04 Comment
ブログ中で解説されているサーベイ論文は下記:
- A Survey on LLM-as-a-Judge, Jiawei Gu+, arXiv'24
Inside vLLM: Anatomy of a High-Throughput LLM Inference System, Aleksa Gordić blog, 2025.08
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #python #LLMServing #read-later #Selected Papers/Blogs Issue Date: 2025-09-03 Comment
めっちゃ良さそう
Probing LLM Social Intelligence via Werewolf, foaster.ai, 2025.08
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Evaluation #Reasoning Issue Date: 2025-08-31 Comment
元ポスト:
fastvlm-webgpu, Apple, 2025.08
Paper/Blog Link My Issue
#Article #ComputerVision #EfficiencyImprovement #NLP #SmallModel #VisionLanguageModel Issue Date: 2025-08-30 Comment
元ポスト:
pj page: https://fastvlm.net
Introducing Research-Eval: A Benchmark for Search-Augmented LLMs, Reka, 2025.08
Paper/Blog Link My Issue
#Article #Evaluation Issue Date: 2025-08-29 Comment
元ポスト:
Introducing Gemini 2.5 Flash Image, our state-of-the-art image model, Google, 2025.08
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #TextToImageGeneration #Proprietary #Editing Issue Date: 2025-08-28 Comment
nano banana
ベストプラクティス:
プロンプトガイドと戦略:
https://ai.google.dev/gemini-api/docs/image-generation?hl=ja#prompt-guide
元ポスト:
「推論する生成AI」は事前学習されていない課題を正しく推論することができない(共変量シフトに弱い), TJO, 2025.08
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Chain-of-Thought #Reasoning #CovarianceShift Issue Date: 2025-08-27 Comment
- [Paper Note] Physics of Language Models: Part 2.1, Grade-School Math and the Hidden Reasoning Process, Tian Ye+, ICLR'25
でLLMは未知の問題を解ける(学習データに存在しない同等のlengthの未知のサンプルを解ける/テストデータで訓練データよりもより複雑な長いlengthの問題を解ける)と比べると、両者から得られる結論から何が言えるのだろうか?観測できるCoTとhidden mental reasoning process (probingで表出させて分析)は分けて考える必要があるのかもしれない。元論文をきちんと読めていないから考えてみたい。
あと、ブログ中で紹介されている論文中ではPhysics of Language Modelsが引用されていないように見えるが、論文中で引用され、関連性・差別化について言及されていた方が良いのではないか?という感想を抱いた。
関連:
- [Paper Note] Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens, Chengshuai Zhao+, arXiv'25
- [Paper Note] Understanding deep learning requires rethinking generalization, Chiyuan Zhang+, ICLR'17
- [Paper Note] UQ: Assessing Language Models on Unsolved Questions, Fan Nie+, arXiv'25
元ポスト:
NEC、暗黙知をデータ化し学習・活用することでWeb業務を自動化するエージェント技術「cotomi Act」を開発 〜世界初、人間を超えるWebタスク成功率80.4%を達成〜, NEC, 2025.08
Paper/Blog Link My Issue
#Article #NLP #AIAgents #ComputerUse Issue Date: 2025-08-27 Comment
元ポスト:
Your Efficient RL Framework Secretly Brings You Off-Policy RL Training, Yao+, 2025.08
Paper/Blog Link My Issue
#Article #Library #ReinforcementLearning #Selected Papers/Blogs #On-Policy #KeyPoint Notes #Reference Collection #train-inference-gap Issue Date: 2025-08-26 Comment
元ポスト:
元々
- verl: Volcano Engine Reinforcement Learning for LLMs, ByteDance Seed Team, 2025.04
のスレッド中にメモっていたが、アップデートがあったようなので新たにIssue化
trainingのエンジン(FSDP等)とロールアウトに使うinferenceエンジン(SGLang,vLLM)などのエンジンのミスマッチにより、学習がうまくいかなくなるという話。
アップデートがあった模様:
- Parallelismのミスマッチでロールアウトと学習のギャップを広げてしまうこと(特にsequence parallelism)
- Longer Sequenceの方が、ギャップが広がりやすいこと
- Rolloutのためのinferenceエンジンを修正する(SGLang w/ deterministic settingすることも含む)だけでは効果は限定的
といった感じな模様。
さらにアップデート:
FP16にするとtrain-inferenae gapが非常に小さくなるという報告:
- [Paper Note] Defeating the Training-Inference Mismatch via FP16, Penghui Qi+, arXiv'25, 2025.10
vLLMがtrain inference mismatchを防ぐアップデートを実施:
Why Stacking Sliding Windows Can't See Very Far, Guangxuan Xiao , 2025.08
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Attention Issue Date: 2025-08-26 Comment
元ポスト:
Best Practices for Building Agentic AI Systems: What Actually Works in Production, Shayan Taslim, 2025.08
Paper/Blog Link My Issue
#Article #Tutorial #AIAgents Issue Date: 2025-08-25 Comment
元ポスト:
vLLMのSpeculative Decodingによる推論高速化を試す, Aratako, 2025.05
Paper/Blog Link My Issue
#Article #EfficiencyImprovement #LanguageModel #python #LLMServing #Decoding #SpeculativeDecoding Issue Date: 2025-08-21
One Month in MCP: What I Learned the Hard Way, r_mcp, 2025.05
Paper/Blog Link My Issue
#Article #MCP Issue Date: 2025-08-20 Comment
元ポスト:
ProRL V2 - Prolonged Training Validates RL Scaling Laws, Hu+, 2025.08
Paper/Blog Link My Issue
#Article #Analysis #NLP #LanguageModel #ReinforcementLearning #read-later Issue Date: 2025-08-12 Comment
元ポスト:
RynnVLA-001: Using Human Demonstrations to Improve Robot Manipulation, Jiang+, Alibaba, 2025.08
Paper/Blog Link My Issue
#Article #NLP #Transformer #VariationalAutoEncoder #OpenWeight #VideoGeneration/Understandings #Robotics #VisionLanguageActionModel #EmbodiedAI Issue Date: 2025-08-12 Comment
TL;DRは下記。
> We introduce RynnVLA-001, a vision-language-action model built upon large-scale video generative pre-training.
> - RynnVLA-001 is pretrained on ~12M ego-centric manipulation videos.
> - We unify next-frame prediction and next-action prediction into a single transformer.
> - We train a lightweight VAE to accurately compress action chunks into action embeddings.
> - Our RynnVLA-001 outperforms Pi-0 and GR00T-N1.5, in terms of both real-world task success rate and instruction-following capability.
まず、11.93Mの一人称視点での人間が操作(特に手の操作)をする動画と、244Kのrobotが操作をする動画でTransformerを事前学習する。このとき、actionラベルは一切用いず、pixelの情報から物理世界のダイナミクスを理解させる。続いて、Action Chunks(複数のアクションの少量のかたまり)を、dense embeddingにエンコードするVAEを学習する。チャンクを用いる理由は、ピクセルの変化が微小な場合、同じアクションが連続して予測されてしまいstuckしめしまう現象を防ぐこと、予測の効率が良いからとのこと。これによりVLAは単一のembedding vectorを予測するだけで、一貫性のあるアクション系列にデコードできる。最後に、step1で学習したvideo generationモデルと、step2で学習したVAEによるaction representationを統合する。具体的には、next frame prediction(visual tokenを予測; cross entropy loss)とnext action prediction(action edbeddingを予測する)を統合して学習する。action embeddingはcontinuousなベクトルなので異なるヘッドを用意して学習する(L1 Loss)。inference時はRGBのobservationと、テキストによるinstructionを入力として受け取り、action embeddingを予測する。action edbeddingはVAE decoderに渡され、low levelなaction系列に変換される。robotは予測されたアクションを実行し、observationが変化するのでまた予測する、といったiterationを実施する。visual tokenによる予測は不要なので、計算効率の観点から実施しない。
元ポスト:
HF: https://huggingface.co/Alibaba-DAMO-Academy/RynnVLA-001-7B-Base
Breakdown: Kimi K2, DeepSeek-R1, Qwen3 (+Coder), and GLM-4.5, TuringPost, 2025.08
Paper/Blog Link My Issue
#Article #NLP #Reasoning #OpenWeight Issue Date: 2025-08-11 Comment
元ポスト:
中国初のOpenLLMについて、それぞれの強みとおすすめのユースケースがまとまっている
ポスト中で紹介されているのは下記
- Kimi K2: Open Agentic Intelligence, moonshotai, 2025.07
- GLM-4.5: Reasoning, Coding, and Agentic Abililties, Zhipu AI Inc., 2025.07
- DeepSeek-R1, DeepSeek, 2025.01
- Qwen3-235B-A22B-Instruct-2507, Qwen Team, 2025.08
- Qwen3-Coder-30B-A3B-Instruct, QwenTeam, 2025.08
以下のようなものもある:
- MiniMax-M1, MiniMax, 2025.06
- Hunyuan-A13B-Instruct, tencent, 2025.06
Agent Maze, LlamaIndex, 2025.08
Paper/Blog Link My Issue
#Article #Tools #NLP #LanguageModel #Evaluation Issue Date: 2025-08-08 Comment
元ポスト:
最小限のツール利用することを前提に迷路をクリアする必要があるベンチマークな模様。難易度を調整可能で、GPT-5でも難易度の高い迷路には苦戦しているとのこと。
難易度調整可能なものとしては以下のようなものもある:
- Sudoku-bench, SakanaAI, 2025.03
- [Paper Note] SynLogic: Synthesizing Verifiable Reasoning Data at Scale for Learning Logical Reasoning and Beyond, Junteng Liu+, NeurIPS'25
Genie 3: A new frontier for world models, Google DeepMind, 2025.08
Paper/Blog Link My Issue
#Article #ComputerVision #Online/Interactive #read-later #WorldModels Issue Date: 2025-08-06 Comment
元ポスト:
ライブ操作が可能な世界モデル
日本語解説:
デモ:
すごいなあ
Introducing Kaggle Game Arena, Meg Risdal, 2025.08
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Evaluation #Game Issue Date: 2025-08-06 Comment
元ポスト:
現在はチェスのみの模様
チェスときくとこの研究を思い出す:
- Learning to Generate Move-by-Move Commentary for Chess Games from Large-Scale Social Forum Data, Jhamtani+, ACL'18
Claude Opus 4.1, Anthropic, 2025.08
Paper/Blog Link My Issue
#Article #Tools #NLP #LanguageModel #AIAgents #Coding #Proprietary Issue Date: 2025-08-06 Comment
他モデルとの性能比較:
やはりコーディングでは(SNS上での口コミでは非常に高評価なように見えており、かつ)o3やGeminiと比較してClaudeがベンチ上でも高い性能を示している模様。
元ポスト:
The Big LLM Architecture Comparison, Sebastian Laschka, 2025.07
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Transformer #Architecture #Selected Papers/Blogs Issue Date: 2025-08-06 Comment
Qwen3とGPT-OSSの比較はこちら:
最新のモデルも含めて内容が更新:
DeepSeek V3/R1
- MLA
- MoE
OLMo2
- LayerNorm → RMSNorm
- PreLN → PostNorm (Post RMSNorm)
- ただしオリジナルのtransformerとは異なり、residual connectionの内側にRMSNormが入る
- QK-Norm
- PostNorm + QK-Normによりpost normalizationのアーキテクチャでも学習が安定
Gemma3
- 27B程度の性能がそこそこ良く使いやすいサイズにフォーカス
- Sliding Window Attention / Local Attention
- Gemma2はlocal:global比はり1:1で、window幅は4kだったが、Gemma3は5:1となり、localの比率が5倍になり、window幅も1024となり1/4に
- ablation実験の結果性能の低下はminimumであることが示されている
- GQA
- Pre-RMSNorm + Post-RMSNorm
- これもresidual connectionの内側
あとで書く
日本語ModernBERTの開発: トークナイザと性能の関係編 (3_3), SBIntuitions, 2025.05
Paper/Blog Link My Issue
#Article #Analysis #NLP #Tokenizer #Finetuning #Encoder Issue Date: 2025-08-02 Comment
SBIntuitionsが公開している事前学習済みModernBertは4.4Tトークンの超大規模なトークンで学習されており、それらには多様な表現が出現するため通常では大幅に性能が劣化してしまうトークナイザの事後的にトークナイザを変換し、変換後トークナイザ→サブワード化を実施した場合に、downstreamタスクの性能が劣化するかを調査。その結果、性能の劣化がほとんど表出しなかった(特にモデルサイズが310mの場合は性能の劣化はほぼなさそう)。また、MeCab(Unidic)でわかち書きかれている前提の固有表現認識ベンチマークでの評価の結果、同様の条件でトークナイズをするモデル(パラメータサイズも同等)と、同等程度の性能を示した。ので、SBIntuitionsが公開している日本語ModernBERTにおいては、トークナイザを事後的に変換したのちにサブワード化を実施しモデルのinputとするような方法をしても、問題なさそう、という感じな模様。興味深い。
元ポスト:
大規模言語モデルPLaMo 2シリーズの事後学習, PFN, 2025.07
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #PostTraining Issue Date: 2025-07-31 Comment
元ポスト:
9 new policy optimization techniques, Kseniase, 2025.07
Paper/Blog Link My Issue
#Article #Survey #NLP #LanguageModel #ReinforcementLearning Issue Date: 2025-07-27 Comment
元ポスト:
Amazon S3 Vectorsで激安RAGシステムを構築する, とすり, 2025.07
Paper/Blog Link My Issue
#Article #AWS #RAG(RetrievalAugmentedGeneration) #SoftwareEngineering Issue Date: 2025-07-17 Comment
元ポスト:
Asymmetry of verification and verifier’s law, Jason Wei, 2025.07
Paper/Blog Link My Issue
#Article #NLP #Dataset #LanguageModel #Verification Issue Date: 2025-07-17 Comment
元ポスト:
個人を活かしてチーム力も最大化する、属人性解消への取り組み方, エムスリーテックブログ, 2025.07
Paper/Blog Link My Issue
#Article #Mindset Issue Date: 2025-07-15 Comment
属人性と向き合いチームの成果を最大化する
推薦システムにおけるPost Processの取り組み, Wantedly, 2025.07
Paper/Blog Link My Issue
#Article #RecommenderSystems #Slide Issue Date: 2025-07-15 Comment
元ポスト:
Wantedlyスカウトにおいて、オンラインで動的にスカウト利用者から指定されるフィルタリング要件に対して、未閲覧のユーザの比率を動的に調整してランキングするPost Processによって、主要KPIが大幅に改善した話。モデル改善に興味が行きがちだが、顧客理解に基づくPost Processでここまで主要KPIが改善するのは美しく、非常に興味深い。
スライド資料:
きみはNanoGPT speedrunを知っているか?, PredNext, 2025.07
Paper/Blog Link My Issue
#Article #Pretraining #NLP #LanguageModel #Optimizer Issue Date: 2025-07-15
H-Nets - the Past, Goomba Lab, 2025.07
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Tokenizer Issue Date: 2025-07-12 Comment
元ポスト:
tokenizerも含めてデータに対して最適なinputの粒度を学習
公式ポスト(?):
関連:
- Byte Latent Transformer: Patches Scale Better Than Tokens, Artidoro Pagnoni+, ICML'25 Workshop Tokshop
- [Paper Note] From Bytes to Ideas: Language Modeling with Autoregressive U-Nets, Mathurin Videau+, NeurIPS'25
ByteLatentTransformerなどとはどう違うのだろうか?
解説ポスト:
PLaMo翻訳による英語ベンチマークの翻訳, PFN, 2025.07
Paper/Blog Link My Issue
#Article #MachineTranslation #NLP #Dataset #SyntheticData Issue Date: 2025-07-09
New methods boost reasoning in small and large language models, Zhang+, Microsoft, 2025.06
Paper/Blog Link My Issue
#Article #Reasoning #read-later Issue Date: 2025-07-08 Comment
元ポスト:
Context Engineering - What it is, and techniques to consider, llamaindex, 2025.07
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #SoftwareEngineering #ContextEngineering Issue Date: 2025-07-04 Comment
元ポスト:
The New Skill in AI is Not Prompting, It's Context Engineering, PHLSCHMID, 2025.06
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #SoftwareEngineering #ContextEngineering Issue Date: 2025-07-04 Comment
元ポスト:
日経電子版のアプリトップ「おすすめ」をTwo Towerモデルでリプレースしました, NIKKEI, 2025.05
Paper/Blog Link My Issue
#Article #RecommenderSystems #NeuralNetwork #Embeddings #EfficiencyImprovement #AWS #MLOps #A/B Testing #TwoTowerModel Issue Date: 2025-06-29 Comment
リアルタイム推薦をするユースケースにおいて、ルールベース+協調フィルタリング(Jubatus)からTwo Towerモデルに切り替えた際にレイテンシが300ms増えてしまったため、ボトルネックを特定し一部をパッチ処理にしつつもリアルタイム性を残すことで解決したという話。AWSの構成、A/Bテストや負荷テストの話もあり、実用的で非常に興味深かった。
LLM-jp-3.1 シリーズ instruct4 の公開, LLM-jp, 2025.05
Paper/Blog Link My Issue
#Article #Tutorial #Pretraining #NLP #Dataset #LanguageModel #Evaluation #OpenWeight #Japanese #PostTraining Issue Date: 2025-06-25 Comment
関連
- [Paper Note] Instruction Pre-Training: Language Models are Supervised Multitask Learners, Daixuan Cheng+, arXiv'24, 2024.06
- [Paper Note] Preference Fine-Tuning of LLMs Should Leverage Suboptimal, On-Policy Data, Fahim Tajwar+, ICML'24
- [Paper Note] AnswerCarefully: A Dataset for Improving the Safety of Japanese LLM Output, Hisami Suzuki+, arXiv'25
人間を騙してサボるAIたち, 佐藤竜馬, 2025.06
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #RLHF #Verification Issue Date: 2025-06-24
AI Agent Manager (AAM) として生きていく : 作業環境とワークフローの設計, icoxfog417, 2025.06
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Coding #SoftwareEngineering #read-later #Author Thread-Post Issue Date: 2025-06-23 Comment
元ポスト:
Nano-vLLM, GeeeekExplorer, 2025.06
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #python #Repository #LLMServing #MinimalCode #Initial Impression Notes Issue Date: 2025-06-22 Comment
元ポスト:
vLLMと同等のinference speedを実現するミニマムでクリーンな実装。勉強用に良さそう。
AI-assisted coding for teams that can't get away with vibes, Atharva Raykar, 2025.05
Paper/Blog Link My Issue
#Article #AIAgents #Coding #SoftwareEngineering #read-later Issue Date: 2025-06-21 Comment
元ポスト:
Single vs Multi-Agent System?, PHILSCHMID, 2025.06
Paper/Blog Link My Issue
#Article #NLP #AIAgents #read-later #Author Thread-Post Issue Date: 2025-06-21 Comment
元ポスト:
Q-learning is not yet scalable, Seohong Park, UC Berkeley, 2025.06
Paper/Blog Link My Issue
#Article #Tutorial #ReinforcementLearning #Off-Policy #On-Policy #One-Line Notes Issue Date: 2025-06-19 Comment
元ポスト:
on-policy RLでは、現在の状態からポリシーに従ってアクションを選択して、実際に選択したアクションのrewardをシグナルにしてポリシーを更新するけど、off-policy RLでは、未来において現在の(Q関数で)Q値が最大となるアクションを選択した場合に得られる価値はどんなもん?というQ関数の学習が甘い状態だととあるアクションを過大評価してしまう(=バイアス)ようなシグナルに基づいて更新されるから、系列が長くなるとバイアスが蓄積して適切なQ関数が学習できなくなってdepth方向にスケールしづらいんだよ、という話っぽい?
Don’t Build Multi-Agents, Cognition, 2025.06
Paper/Blog Link My Issue
#Article #Multi #NLP #AIAgents #read-later #ContextEngineering #Reference Collection Issue Date: 2025-06-17 Comment
元ポスト:
まとめ:
Webスケールの日本語-画像のインターリーブデータセット「MOMIJI」の構築 _巨大テキストデータをAWSで高速に処理するパイプライン, Turing (studio_graph), 2025.05
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #Dataset #AWS #MultiModal #Japanese #VisionLanguageModel #Initial Impression Notes Issue Date: 2025-05-20 Comment
貴重なVLMデータセット構築ノウハウ
青塗りのフィルタリングタスクを具体的にどうやっているのか気になる
Lesson.3 秋葉氏に学ぶ AI 研究の最前線から見るこれまでとこれから, EM.FM, 2025.05
Paper/Blog Link My Issue
#Article #read-later Issue Date: 2025-05-18 Comment
元ポスト:
OpenAI-Codex, OpenAI, 2025.05
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Coding #One-Line Notes #Reference Collection Issue Date: 2025-05-18 Comment
OpenHandsのNeubig氏が、OpenAIのブログポスト中で報告されているSWE-Bench Verifiedのスコアについて、言及している。OpenAIは23個サンプルについて(internal infrastructureで動作させられないため)除外しているので、その分スコアに下駄が履かれているようで、ブログ中のpassNのスコアを他のリーダーボードのスコアと比較する際には注意が必要っぽい。
The Second Half, Shunyu Yao, 2025.05
Paper/Blog Link My Issue
#Article #Tutorial #MachineLearning #LanguageModel #ReinforcementLearning #Reference Collection Issue Date: 2025-05-12 Comment
元ポスト:
ms-swiftによるMegatron-LMベースのQwen3のファインチューニング, Aratako, 2025.05
Paper/Blog Link My Issue
#Article #NLP #Library #Supervised-FineTuning (SFT) #OpenWeight #MoE(Mixture-of-Experts) #PostTraining #One-Line Notes #Author Thread-Post Issue Date: 2025-05-11 Comment
元ポスト:
Megatron-SWIFTというAlibaba製のライブラリを利用しQwen3の継続事前学習とSFTを実施する方法を、ベストプラクティスに則って記述し、かつ著者自身が学習したモデルも公開している。(おそらくインスタンス代は自腹なので)すごい...!!
Megatron-SWIFTはMoEアーキテクチャを採用したモデルであれば、DeepSpeed Zero3 [^1]と比べて10倍程度のスループットで学習できる模様(早い)。一方MoEアーキテクチャでないモデルの場合はそこまで大きな差はない。
[^1]: A100 80GB 2ノードでは、Qwen3-30B-A3Bは、DeepSpeed-Zero2ではOOMとなり載らないようだ…。なんとリソースに厳しいこと…(涙)
時系列データのvalidationに関する質問に回答します, カレーちゃん, 2022.07
Paper/Blog Link My Issue
#Article #TimeSeriesDataProcessing #MachineLearning #Evaluation Issue Date: 2025-05-09 Comment
元スレッド:
めちゃめちゃ参考になる・・・
Agent Frameworkはどれを使うべきか [タスク性能編], はち, 2025.05
Paper/Blog Link My Issue
#Article #Analysis #NLP #Library #AIAgents #One-Line Notes #Author Thread-Post Issue Date: 2025-05-06 Comment
各フレームワーク毎の性能の違いや消費したトークン数、実装の微妙や違いがまとめられており、太字でtakeawayが記述されているので非常にわかりやすい。
元ポスト:
React がビルドされるまでの流れを理解したい, ツチノコ, 2023.12
Paper/Blog Link My Issue
#Article #Frontend #React (Frontend) #One-Line Notes Issue Date: 2025-05-01 Comment
Reactがビルドされる流れは、
- Webpackでバンドル(アセットをまとめる)し
- Babelでトランスパイルし(ES5(古い仕様のJS) に変換)し
- tscでJavaScriptに変換
する
Qwen3, Qwen Team, 2025.04
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Alignment #Supervised-FineTuning (SFT) #ReinforcementLearning #InstructionTuning #LongSequence #MultiLingual #OpenWeight #MoE(Mixture-of-Experts) #PostTraining #KeyPoint Notes #Reference Collection Issue Date: 2025-04-29 Comment
- 119言語をサポート
- MoEモデル [Paper Note] Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer, Noam Shazeer+, ICLR'17
- 30B-A3B / 235B-A22N
- 128K context window
- Qwen2.5はMoEを採用していないので新たなアーキテクチャとなる
- Denseモデル(非MoEモデル)も公開
- 0.6B -- 32B
- 32K -- 128K context window
- Thinking/Non-thinking の切り替えが切り替えが可能
- スイッチは自動的に実施されるが、ユーザが明示的に `/think`, `/no_think` を user_promptの末尾に追加することで制御することも可能
- Pre-training
- データ
- 36 trillion tokensによって学習(Qwen-2.5の2倍)
- 学習データではwebデータに加えて、PDF-likeな文書群からQwen2.5-VL Qwen2.5-VL-32B-Instruct, Qwen Team, 2025.03
によってテキストを抽出し、Qwen2.5 で抽出された内容の品質を改善し利用
- また、math / code に関するデータを追加するために、Qwen2.5-Math / Qwen2.5-Coderを用いて合成データを作成(textbooks / QA pairs / code snippets [Paper Note] Textbooks Are All You Need, Suriya Gunasekar+, arXiv'23, 2023.06
)
- 事前学習のステップ
- S1: context長が4kの30 trillion tokenで事前学習
- S2: STEM / coding / reasoning task などのknowledge-intensiveデータの比率を増やして継続事前学習 (これがおそらく 5 trillion token程度?)
- Final Stage: context長を32kに拡大し高品質なlong-context dataで継続事前学習
- これによりBaseモデルが完成し、Qwen3-235B全体のうち10%程度のActive Parameterの利用するだけで(i.e., 22Bで)、Qwen2.5-72B Baseと同等以上の性能達成
- Post-training
- S1: long-CoT cold start
- 数学/coding/logical reasoning/STEMなどの多様なlong CoTデータを用いてSFT [Paper Note] s1: Simple test-time scaling, Niklas Muennighoff+, EMNLP'25, 2025.01
- S2: reasoning-based RL
- rule-based (verifiable) rewards によるRL DeepSeek-R1, DeepSeek, 2025.01
- S1/S2の流れは [Paper Note] Demystifying Long Chain-of-Thought Reasoning in LLMs, Edward Yeo+, ICML'25
に有効性が示されている通り、long CoT DataによるSFT -> RLを実施
- S3: thinking mode fusion
- S2データを用いてlong CoTデータとinstruction tuningデータ(非Long CoT)を生成し、Thinking/Non-thinkingを自動的に選択し生成するように学習(SFT or RLは記述なし)
- S4: general RL
- 20以上の一般的なドメインのタスクを通じて一般的な能力の向上と、safetyに関するalignmentの実施(e.g., instruction following, format following, agent能力など)
BestPracticeに関するポスト:
解説:
Improving Recommendation Systems & Search in the Age of LLMs, eugeneyan, 2025.04
Paper/Blog Link My Issue
#Article #RecommenderSystems #LanguageModel Issue Date: 2025-04-28
Deepwiki, Cognition, 2025.04
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Repository #One-Line Notes Issue Date: 2025-04-26 Comment
githubリポジトリに関するリッチなドキュメントに対してDevinを通じて対話的に質問ができる模様。サインアップ不要で、githubリポジトリのドメインをdeepwikiに変えるだけで利用可能
研究者向けの技術研修資料を公開します, CyberAgent, 2025.04
Paper/Blog Link My Issue
#Article #Tutorial #MachineLearning #Infrastructure #ExperimentManagement #SoftwareEngineering Issue Date: 2025-04-18 Comment
気になる
あえて予測の更新頻度を落とす| サプライチェーンの現場目線にたった機械学習の導入, モノタロウ Tech Blog, 2022.03
Paper/Blog Link My Issue
#Article #MachineLearning #Reading Reflections Issue Date: 2025-04-18 Comment
とても面白かった。需要予測の予測性能を追求すると現場にフィットしない話が示唆に富んでいて、とてもリアルで興味深い。
ジュニアエンジニアからシニアエンジニアになるまでに自分がやっていたことまとめ, yasuhisa's blog, 2025.04
Paper/Blog Link My Issue
#Article #Mindset #SoftwareEngineering Issue Date: 2025-04-01
Recommendation Systems • LLM, vinjia.ai, 2025.03
Paper/Blog Link My Issue
#Article #RecommenderSystems #Survey #NLP #LanguageModel #Author Thread-Post Issue Date: 2025-03-31 Comment
言語モデルの物理学, 佐藤竜馬, 2025.03
Paper/Blog Link My Issue
#Article #Analysis #NLP #LanguageModel #Selected Papers/Blogs Issue Date: 2025-03-25 Comment
必読
Nemotron-H: A Family of Accurate, Efficient Hybrid Mamba-Transformer Models, Nvidia, 2025.03
Paper/Blog Link My Issue
#Article #ComputerVision #EfficiencyImprovement #Pretraining #NLP #LanguageModel #Transformer #Supervised-FineTuning (SFT) #MultiModal #SSM (StateSpaceModel) #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-03-24 Comment
関連:
- Hunyuan T1, Tencent, 2025.03
TransformerのSelf-attention LayerをMamba2 Layerに置換することで、様々なベンチマークで同等の性能、あるいは上回る性能で3倍程度のInference timeの高速化をしている(65536 input, 1024 output)。
56B程度のmediumサイズのモデルと、8B程度の軽量なモデルについて述べられている。特に、8BモデルでMambaとTransformerのハイブリッドモデルと、通常のTransformerモデルを比較している。学習データに15 Trillion Tokenを利用しており、このデータ量でのApple to Appleのアーキテクチャ間の比較は、現状では最も大規模なものとのこと。性能は多くのベンチマークでハイブリッドにしても同等、Commonsense Understandingでは上回っている。
また、学習したNemotron-Hをバックボーンモデルとして持つVLMについてもモデルのアーキテクチャが述べられている。
8 Types of RoPE, Kseniase, 2025.03
Paper/Blog Link My Issue
#Article #Survey #Embeddings #NLP #LanguageModel #Transformer #PositionalEncoding #Initial Impression Notes Issue Date: 2025-03-23 Comment
元ポスト: https://huggingface.co/posts/Kseniase/498106595218801
RoPEについてサーベイが必要になったら見る
The "think" tool: Enabling Claude to stop and think in complex tool use situations, Anthropic, 2025.03
Paper/Blog Link My Issue
#Article #Tools #NLP #LanguageModel #Chain-of-Thought #Reasoning #One-Line Notes Issue Date: 2025-03-23 Comment
"考える"ことをツールとして定義し利用することで、externalなthinkingを明示的に実施した上でタスクを遂行させる方法を紹介している
15 types of attention mechanisms, Kseniase, 2025.03
Paper/Blog Link My Issue
#Article #Survey #NLP #LanguageModel #Transformer #Attention #Initial Impression Notes Issue Date: 2025-03-18 Comment
Luongらのアテンションやsoft, globalアテンションなど、古くからあるattentionも含まれている。
Model Context Protocol (MCP), Anthropic
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #SoftwareEngineering #Selected Papers/Blogs #MCP Issue Date: 2025-03-15 Comment
下記リンクのMCPサーバ/クライアントの作り方を読むとだいぶ理解が捗る:
https://modelcontextprotocol.io/quickstart/server
https://modelcontextprotocol.io/quickstart/client
browser-useの基礎理解, むさし, 2024.12
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #ComputerUse #Reading Reflections Issue Date: 2025-03-15 Comment
公式リポジトリ: https://github.com/browser-use/browser-use
BrowserUseはDoMを解析するということは内部的にテキストをLLMで処理してアクションを生成するのだろうか。OpenAIのComputer useがスクリーンショットからアクションを生成するのとは対照的だと感じた(小並感)。
- OpenAI API での Computer use の使い方, npaka, 2025.03
OpenAI API での Computer use の使い方, npaka, 2025.03
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #ComputerUse #Reading Reflections Issue Date: 2025-03-12 Comment
OpenAIのCompute Useがどのようなものかコンパクトにまとまっている。勉強になりました。
公式: https://platform.openai.com/docs/guides/tools-computer-use
The State of LLM Reasoning Models, Sebastian Raschka, 2025.03
Paper/Blog Link My Issue
#Article #Tutorial #NLP #LanguageModel #Reasoning #Test-Time Scaling Issue Date: 2025-03-09
GRPO Judge Experiments: Findings & Empirical Observations, kalomaze's kalomazing blog, 2025.03
Paper/Blog Link My Issue
#Article #MachineLearning #NLP #LanguageModel #ReinforcementLearning #GRPO #One-Line Notes #Subjective Issue Date: 2025-03-05 Comment
一意に解が決まる問題ではなく、ある程度の主観的な判断が必要なタスクについてのGRPOの分析。
2つのテキストを比較するタスクで、一方のタスクはLLMによって摂動を与えている(おそらく意図的にcorruptさせている)。
GRPOではlinearやcosineスケジューラはうまく機能せず、warmupフェーズ有りの小さめの定数が有効らしい。また、max_grad_normを0.2にしまgradient clippingが有効とのこと。
他にもrewardの与え方をx^4にすることや、length, xmlフォーマットの場合にボーナスのrewardを与えるなどの工夫を考察している。
強化学習「GRPO」をCartPoleタスクで実装しながら解説, 小川雄太郎, 2025.02
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #PostTraining #GRPO Issue Date: 2025-02-19 Comment
元ポスト:
DeepScaleR: Surpassing O1-Preview with a 1.5B Model by Scaling RL, Luo+, 2025.02
Paper/Blog Link My Issue
#Article #EfficiencyImprovement #NLP #LanguageModel #ReinforcementLearning #ContextWindow #One-Line Notes Issue Date: 2025-02-12 Comment
日本語解説: https://jobirun.com/deepscaler-1-5b-surpasses-o1-preview-rl-scaling/
openreview:
https://openreview.net/forum?id=I6GzDCne7U
Iterative Context Lengtheningと呼ばれる、RLの学習時に最初から固定された大きなcontext(24Kなど)ではなく、学習の過程で小さなcontext windowから始め、効率的なreasoningを学習させながら、段階的にモデルのcontext windowを引き上げる手法(論文中では8K->16K->24K)を提案している。
DeepSeek-R1の論文読んだ?【勉強になるよ】 , asap, 2025.01
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Supervised-FineTuning (SFT) #FoundationModel #RLHF #Selected Papers/Blogs #Reading Reflections Issue Date: 2025-02-01 Comment
- DeepSeek-R1, DeepSeek, 2025.01
- DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open
Language Models, Zhihong Shao+, arXiv'24
とても丁寧でわかりやすかった。後で読んだ内容を書いて復習する。ありがとうございます。
How to fine-tune open LLMs in 2025 with Hugging Face, PHILSCHMID, 2024.12
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Supervised-FineTuning (SFT) #python #SoftwareEngineering #PostTraining #One-Line Notes Issue Date: 2025-01-25 Comment
SFTTrainerを用いたLLMのSFTについて、実用的、かつ基礎的な内容がコード付きでまとまっている。
How to align open LLMs in 2025 with DPO & and synthetic data, PHILSCHMID, 2025.01
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Alignment #Supervised-FineTuning (SFT) #python #SoftwareEngineering #DPO #PostTraining #KeyPoint Notes Issue Date: 2025-01-25 Comment
元ポスト:
- DPOの概要やRLHFと比較した利点
- ルールベース、あるいはLLM as a Judgeを用いたOn-policy preference pair(現在のSFTしたモデルの出力から生成したpreference data)の作り方とその利点(現在のモデルのoutput distributionを反映しているので学習が効率化される)
- 環境構築方法
- DPOTrainer/TRLParserの使い方/DPODatasetの作り方
- DPOのハイパーパラメータβの意味合い
- DPOではSFTと比べて10-100x小さい学習率を使う必要があること
- Evaluation Harnessを用いた評価方法
- TGIを用いたモデルのデプロイとテスト
などが丁寧なサンプルコードと注釈、reference付きで説明されている。
Japan as an international hub for AI, Jerry Chi and Ilya Kulyatin, 2025.01
Paper/Blog Link My Issue
#Article #GenerativeAI Issue Date: 2025-01-06
DeepSeek-V2のアーキテクチャを徹底解説:MLA と DeepSeekMoE, kernelian, 2024.05
Paper/Blog Link My Issue
#Article #EfficiencyImprovement #NLP #LanguageModel #Attention #MoE(Mixture-of-Experts) Issue Date: 2025-01-05 Comment
Killed by LLM, R0bk
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #Dataset #LanguageModel #Evaluation #One-Line Notes Issue Date: 2025-01-05 Comment
Saturationとなっているベンチマークは、最先端の性能をすでに測定できなくなってしまったベンチマークとのこと。
LLMによって性能が飽和したベンチマークをリストアップしているサイトで、2024年までのものが掲載されている。それ以後は掲載されていないようだ。
AI Agents 2024 Rewind - A Year of Building and Learning, VICTOR DIBIA, 2025.01
Paper/Blog Link My Issue
#Article #LanguageModel #AIAgents Issue Date: 2025-01-05
AI Agent Era, 福島良典 | LayerX, 2024.12
Paper/Blog Link My Issue
#Article #LanguageModel #AIAgents Issue Date: 2025-01-05
LLMがオワコン化した2024年, らんぶる, 2025.01
Paper/Blog Link My Issue
#Article #LanguageModel #Reading Reflections Issue Date: 2025-01-05 Comment
LLMを(呼び出す|呼び出される)SaaS企業が今後どのような戦略で動いていくかが考察されており興味深かった。
pydantic-settingsで環境変数からもオプション引数を指定できるCLIを作る 〜サブコマンド篇〜, nikkie-ftnextの日記, 2025.01
Paper/Blog Link My Issue
#Article #python #One-Line Notes Issue Date: 2025-01-04 Comment
pydantic-settingsを使ったCLI作成に関する記事。環境変数からオプションを指定できるので、コマンドライン引数を動的に柔軟に変更したい場合に便利そう
browser-use やばいです, Syoitu, 2024.12
Paper/Blog Link My Issue
#Article #NLP #AIAgents #python #API #ComputerUse #Reading Reflections Issue Date: 2025-01-04 Comment
すごい手軽に使えそうだが、クローリング用途に使おうとするとhallucinationが起きた時に困るのでうーんと言ったところ。
Things we learned about LLMs in 2024, Simon Willson's blog, 2024.12
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #GenerativeAI Issue Date: 2025-01-03 Comment
元ポスト:
To fine-tune or not to fine-tune, Meta, 2024.08
Paper/Blog Link My Issue
#Article #Tutorial #NLP #LanguageModel #Supervised-FineTuning (SFT) #RAG(RetrievalAugmentedGeneration) #PEFT(Adaptor/LoRA) #Catastrophic Forgetting #PostTraining #KeyPoint Notes Issue Date: 2025-01-02 Comment
LLMをSFTする際の注意点やユースケースについて記述されている。
- full parameterのファインチューニングやPEFT手法のピークGPUメモリ
- full parameterのファインチューニングではcatastrophic forgettingに気をつける必要があること
- Finetuningが有用なユースケースとして以下が挙げられている
- トーン、スタイル、フォーマットのカスタマイザーション
- prompt engineeringやICLで達成するには困難なAccuracyの向上やエッジケースへの対応
- ドメイン適応
- より大きいモデルを蒸留することによるコスト削減
- 新たなタスクへの適応や能力の獲得
また、RAGとFinetuningどちらを選択すべきかに関する話題も記述されている(が、多くの場合はハイブリッドアプローチがベストだ、といった話も書いてある)。
元ポスト:
MHA vs MQA vs GQA vs MLA, Zain ul Abideen, 2024.07
Paper/Blog Link My Issue
#Article #Tutorial #NLP #LanguageModel #Attention #KeyPoint Notes Issue Date: 2024-12-28 Comment
DeepSeekで使われているMulti Head Latent Attention(MLA)ってなんだ?と思い読んだ。端的に言うと、GQAやMQAは、KVのヘッドをそもそも減らしてKV Cacheを抑えよう、という手法だったが、MLAはKVを低ランクなベクトルに圧縮して保持し、使う時に復元するといった操作をすることで、MHAのパフォーマンスを落とすことなく(むしろ上がるらしい?)、利用するKV Cacheで利用するメモリを大幅に減らせるという手法らしい。
- [Paper Note] GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints, Joshua Ainslie+, arXiv'23, 2023.05
MQA, GQAの概要については上記参照のこと。
LLM-as-a-Judge をサーベイする, Ayako, 2024.12
Paper/Blog Link My Issue
#Article #Survey #NLP #LanguageModel #Evaluation #LLM-as-a-Judge #KeyPoint Notes #Reading Reflections Issue Date: 2024-12-25 Comment
- A Survey on LLM-as-a-Judge, Jiawei Gu+, arXiv'24
を読んだ結果を日本語でまとめてくださっている。
モデル選択について、外部APIに依存するとコストやプライバシー、再現性などの問題があるためOpenLLMをFinetuningすることで対応していることが論文中に記載されているようだが、評価能力にはまだ限界があるとのこと。
記事中ではLlama, Vicunaなどを利用している旨が記述されているが、どの程度のパラメータサイズのモデルをどんなデータでSFTし、どのようなタスクを評価したのだろうか(あとで元論文を見て確認したい)。
また、後処理としてルールマッチで抽出する必要あがるが、モデルのAlignmentが低いと成功率が下がるとのことである。
個人的には、スコアをテキストとして出力する形式の場合生成したテキストからトークンを抽出する方式ではなく、G-Eval のようにスコアと関連するトークン(e.g. 1,2,3,4,5)とその尤度の加重平均をとるような手法が後処理が楽で良いと感じる。
ICLR2025の査読にLLM-as-a-Judgeが導入されるというのは知らなかったので、非常に興味深い。
LLMが好む回答のバイアス(冗長性、位置など)別に各LLMのメタ評価をしている模様。また、性能を改善するための施策を実施した場合にどの程度メタ評価で性能が向上するかも評価している。特に説明を出力させても効果は薄く、また、複数LLMによる投票にしても位置バイアスの軽減に寄与する程度の改善しかなかったとのこと。また、複数ラウンドでの結果の要約をさせる方法がバイアスの低減に幅広く寄与したとのこと。
うーん、バイアスを低減するうまい方法がまだ無さそうなのがなかなか厳しい感じがする。
そもそも根本的に人間に人手評価をお願いする時もめちゃめちゃマニュアルとかガイドラインを作り込んだりした上でもagreementが高くなかったりするので、やはり難しそうである。
ただ、MTBenchでは人間の評価結果とLLMの評価結果の相関(agreementだっけか…?)が高かったことなどが報告されているし、LLMあるあるのタスクごとに得意不得意があります、という話な気もする。
OpenAI o3は,人間とは全く異質の汎用知能である危険性【東大解説】, 神楽坂やちま, 2024.12
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #GenerativeAI #One-Line Notes #Reading Reflections Issue Date: 2024-12-24 Comment
様々な有識者の見解をまとめつつ、文献を引用しつつ、かつ最終的に「人間が知能というものに対してなんらかのバイアスを持っている」可能性がある、という話をしており興味深い。
一部の有識者はARC-AGIの一部の、人間なら見た瞬間に分かるようなパターン認識の問題でも解けていないことから、AGIではないと主張しているとのことだったが、人間目線で簡単な問題が解けることはAGIとして必須な条件ではないよね、といった話が書かれており、そもそも有識者がどのようなものさしや観点でAGIを見ているのか、どういう視点があるのか、ということが感覚的に分かる内容であり、おもしろかった。
しかし、そもそも何がどうなったらAGIが実現できたと言えるのだろうか?定義がわからない(定義、あるのか…?)
完全にオープンな約1,720億パラメータ(GPT-3級)の大規模言語モデル 「llm-jp-3-172b-instruct3」を一般公開 ~GPT-3.5を超える性能を達成~ , NII, 2024.12
Paper/Blog Link My Issue
#Article #Tools #NLP #Dataset #LanguageModel #OpenWeight #Japanese #OpenSource #Selected Papers/Blogs #One-Line Notes Issue Date: 2024-12-24 Comment
GPT3.5と同程度のパラメータ数のコーパス、モデル、ツール、全てを公開。学習データまで含めてオープンなモデルとしては世界最大規模とのこと。
Instructionチューニング済みのモデルはライセンスを読むと、ライセンスに記述されている内容を遵守すれば、誰でも(日本人なら18歳以上とかはあるが)アクセス可能、用途の制限(商用・非商用問わず)なく利用でき、かつ再配布や派生物の生成などが許されているように見える。
が、baseモデルの方はコンタクト情報を提供のうえ承認を受けないと利用できない模様。また、再配布と一部の使途に制限がある模様。
SNSではオープンソースではないなどという言説も出ており、それはbaseモデルの方を指しているのだろうか?よくわからない。
実用上はinstructionチューニング済みのモデルの方がbaseモデルよりも使いやすいと思うので、問題ない気もする。
やはりbaseとinstructでライセンスは2種類あるとのこと:
OpenAI o1を再現しよう(Reasoningモデルの作り方), はち, 2024.12
Paper/Blog Link My Issue
#Article #LanguageModel #Reasoning #SelfCorrection #Reading Reflections Issue Date: 2024-12-22 Comment
Reflection after Thinkingを促すためのプロンプトが興味深い
Netflixの推薦&検索システム最前線 - QCon San Francisco 2024現地レポート, UZABASE, 2024.12
Paper/Blog Link My Issue
#Article #RecommenderSystems #KeyPoint Notes #Reading Reflections Issue Date: 2024-12-20 Comment
インフラ構成の部分が面白い。モデルの構築方法などは、まず軽量なモデルやヒューリスティックで候補を絞り、その後計算量が重いモデルでリランキングする典型的な手法。
Netflixのインフラによって、以下のようなことを
>1~2秒前の最新データを参照でき、推薦生成に反映させることが可能です
latencyを40msに抑えつつ実現しているとのこと。直前のアクションをinferenceで考慮できるのは相当性能に影響あると思われる。
また、検索と推薦をマルチタスク学習しパラメータをシェアすることで両者の性能を挙げているのが興味深い。
モデル自体は近年のLLMを用いた推薦では無く、Deepなニューラルネットに基づくモデルを採用
(まあLLMなんかにリアルタイムで推論させたらlatency 40ms未満という制約はだいぶきついと思われるしそもそも性能向上するかもわからん。予測性能とかよりも、推薦理由の生成などの他タスクも同時に実施できるのは強みではあるとは思うが…)。
まあしかし、すごい目新しい情報があったかと言われると基本的な内容に留まっているのでそうでもないという感想ではある。
RLHF_DPO 小話, 和地瞭良_ Akifumi Wachi, 2024.04
Paper/Blog Link My Issue
#Article #MachineLearning #NLP #LanguageModel #Alignment #RLHF #DPO #PostTraining #Selected Papers/Blogs #Reading Reflections Issue Date: 2024-12-18 Comment
めちゃめちゃ勉強になる…
Scaling test-time-compute, Huggingface, 2024.12
Paper/Blog Link My Issue
#Article #Tutorial #LanguageModel #Test-Time Scaling #read-later #Selected Papers/Blogs Issue Date: 2024-12-17 Comment
これは必読
Fast LLM Inference From Scratch, Andrew Chan, 2024.12
Paper/Blog Link My Issue
#Article #EfficiencyImprovement #LanguageModel #One-Line Notes Issue Date: 2024-12-17 Comment
ライブラリを使用せずにC++とCUDAを利用してLLMの推論を実施する方法の解説記事
最近のOptimizerの研究について, Hiroyuki Tokunaga, 2024.12
Paper/Blog Link My Issue
#Article #MachineLearning #Optimizer #Reading Reflections Issue Date: 2024-12-12 Comment
- [Paper Note] ADOPT: Modified Adam Can Converge with Any $β_2$ with the Optimal Rate, Shohei Taniguchi+, NeurIPS'24
↑以外にもめちゃめちゃたくさんのOptimizerの研究が紹介されており大変勉強になる。
株式会社NexaScienceはじめます。, Yoshitaka Ushiku, 2024.12
Paper/Blog Link My Issue
#Article #Reading Reflections Issue Date: 2024-12-12 Comment
全部読んだ。めちゃめちゃ共感できる。
Augmenting Recommendation Systems With LLMs, Dave AI, 2024.08
Paper/Blog Link My Issue
#Article #RecommenderSystems #LanguageModel Issue Date: 2024-12-03
BM42: New Baseline for Hybrid Search, Qdrant, 2024.07
Paper/Blog Link My Issue
#Article #InformationRetrieval #RAG(RetrievalAugmentedGeneration) Issue Date: 2024-12-01
道は続く, Ryo Kobayashi, 2024.11
Paper/Blog Link My Issue
#Article #Mindset Issue Date: 2024-11-30 Comment
「道は続く」、心に刻みたい言葉
Sarashina2-8x70Bの公開, SB Intuitions, 2024.11
Paper/Blog Link My Issue
#Article #Pretraining #NLP #LanguageModel #OpenWeight #Japanese #One-Line Notes Issue Date: 2024-11-25 Comment
MoE Layerの説明、Sparse Upcyclingの説明、MoEモデルを学習する際に、学習時の学習率の設定が大きすぎると初期に損失が増大し、小さすぎると損失の増大は防げるがlong runで学習した際の性能向上が小さかったこと、元のモデルのパラメータを毀損しないように、Upcyclingをした元モデルの最終的な学習率を踏襲して学習をし、学習率をさらに減衰させていったこと、などが記載されている。
また、性能評価として同等のactivation parameter数を持つモデルと日本語のQAタスクで比較した結果も載っている。
- [Paper Note] Sparse Upcycling: Training Mixture-of-Experts from Dense Checkpoints, Aran Komatsuzaki+, ICLR'23
MoE Layerについては
- [Paper Note] Mixtral of Experts, Albert Q. Jiang+, arXiv'24, 2024.01
も参照のこと
【総集編)】15年間のC向けサービスづくりで 得た学び, Shota Horii, 2024.11
Paper/Blog Link My Issue
#Article #KeyPoint Notes #Reading Reflections Issue Date: 2024-11-18 Comment
具体的だがシンプルに知見がまとまっていてとても分かりやすい。
顧客開発モデルに基づいた考え方のみならず、仮設整理のために実際に使われているシートなどの実用的なツール群や、
顧客とのチャネル構築方法、プロダクトのスケールするための知見、チームビルディング、カルチャーの作り方の作法など(他にも透明性とかサンクコストを恐れずシンプルさを保つことのコスト削減効果などここには書ききれない)、
実体験を具体的に交えながら説明されており、盛りだくさんで非常に勉強になる。
ローカルLLMのリリース年表, npaka, 随時更新, 2024.11
Paper/Blog Link My Issue
#Article #Survey #NLP #LanguageModel #OpenWeight #OpenSource #Selected Papers/Blogs #One-Line Notes Issue Date: 2024-11-15 Comment
ローカルLLMを含むOpenLLMのリリース日が年表としてまとまっており、随時更新されている模様。すごい。
2026年3月現在も更新が続いている
The Surprising Effectiveness of Test-Time Training for Abstract Reasoning, 2024.11
Paper/Blog Link My Issue
#Article Issue Date: 2024-11-11
ほぼリアルタイム!?爆速で動作する日本語特化の文字起こしAI!『kotoba-whisper-v2.0』, 遼介 大堀, 2024.11
Paper/Blog Link My Issue
#Article #NLP #SpeechProcessing #Japanese #AutomaticSpeechRecognition(ASR) #KeyPoint Notes #Reading Reflections Issue Date: 2024-11-07 Comment
whisper large-v3を蒸留したkotoba-whisper-v1.0に対して、日本語のオーディオデータで追加学習をしたモデル、kotoba-whisper-v2.0を利用するための環境構築方法やコードの例が記述されている。
公式によると、whisper-large-v3よりも6.3倍のスループットとのこと。また、qiita記事中ではwhisper large-v2に対して約6.0倍のスループットであることが言及されている。
学習に用いられたデータは、ReasonSpeechデータ(日本語のテレビの録音データ)
- ReazonSpeech: A Free and Massive Corpus for Japanese ASR, Yin+, NLP'23
をWERに基づくフィルタリングによって良質なデータのみを抽出することで作成されたデータの模様
公式のモデルカードも参照のこと:
https://huggingface.co/kotoba-tech/kotoba-whisper-v2.0
日本のテレビ番組のデータで学習されているので、それを念頭に置いた上で、自分が適用したいデータとの相性を考えると良さそうである。
また、動作速度が速いのはシンプルにありがたい。
Introducing quantized Llama models with increased speed and a reduced memory footprint, Meta, 2024.10
Paper/Blog Link My Issue
#Article #EfficiencyImprovement #NLP #LanguageModel #Quantization Issue Date: 2024-10-26
Ilya Sutskever’s Top 30 Reading List
Paper/Blog Link My Issue
#Article Issue Date: 2024-10-25
生成AIを活用したシステム開発 の現状と展望 - 生成AI時代を見据えたシステム開発に向けて-, 株式会社日本総合研究所 先端技術ラボ, 2024.09
Paper/Blog Link My Issue
#Article #Survey #GenerativeAI #KeyPoint Notes #Reading Reflections Issue Date: 2024-10-01 Comment
ソフトウェア開発で利用され始めている生成AIのプロダクト群と、それらに関連するソースコード生成やテストコード生成、エージェントによる自動システム開発等の研究動向、今後の展望について具体的に記述されている。
SIerやITベンダー内では、実際に活用しているところも一部あるようだが、まだ検証や改革の途中の模様。要件定義に対するLLMの活用も模索されているようだが、産業側もアカデミックも研究段階。
web系では、サイバーやLINEヤフーが全社的にすでにGithub Copilotを導入しているとのこと。
Devin AIのように、Github上のオープンソースのIssueをもとにしたベンチマークで、2294件中13.86%のIssueを解決した、みたいな話を見ると、そのうちコードを書く仕事はIssueを立てる仕事に置き換わるんだろうなあ、という所感を得た(小並感
Claude Opus 4.6あたりが一つの節目で、明らかに2026年頭にかけてCoding Agentの質が上がって完全なる実用レベルに到達したという感がある。
非プロダクトマネージャーのためのプロダクトマネジメント入門, 神原淳史, 2024.09
Paper/Blog Link My Issue
#Article #Management #KeyPoint Notes #Reading Reflections Issue Date: 2024-09-30 Comment
プロダクトマネジメントについて初心者向けに書かれた記事。勉強になった。
JTBDフレームワークは顧客開発モデルなどでも出てくるので、もう一度復習しておきたい。
>When (Situation) I want to (Motivation) So I can (Expected outcome)
ビルドトラップについても勉強になった。ミニマムでユーザの課題(ニーズ)を解決(満たす)する価値を提供することが重要。この辺は、技術にこだわりや興味、自信がある人ほど作り込みすぎてしまう印象がある。
https://product-managers-club.jp/blog/post/build-traps-fall
レベル2生産性の簡易的な計算方法のフレームワーク。知っておくと役に立つ場面がありそう。考え方として知っておくだけでも良い。confidenceの定義が難しそう。
>・Reach: どれだけ多くの顧客/ユーザーにとっての問題か
・Impact: その問題は個々の顧客/ユーザーにとってどれだけ深刻か
・Conficence: ReachとImpactがどれだけ確からしいか (Effortの確からしさも含むことがある)
・Effort: 問題解決の実装に必要な工数
計算式は以下の通りです。
RICEスコア = Reach * Impact * Confidence / Effort
と思ったが、一応参考として以下のようなものが紹介されている。この辺はプロダクトやチームごとにより具体的なものを決めていくと良いのだろうと思う。特に発案者やその同僚が信じている、の部分は深掘りできそうな気がする。その人にしか見えておらず、定量化できない感覚のような部分があったとしたら、この基準では低いスコアを付与してしまう。ユーザに近しい人ほどそういう感覚を持っており、軽視すべきでないと個人的には考える(が、発言者によって熱量のオフセットが異なるのでその辺も考慮しないといけないから判断難しそう)。
>・発案者やその同僚が信じている (0.01 - 0.2)
・複数の顧客からリクエストがあった (0.5 - 1)
・市場リサーチ結果 (1 - 2)
・一定量以上のユーザーインタビュー結果 (3)
・実際のプロダクト上での検証結果 (5 - 10)
記事のまとめ
>・ソリューションよりも問題の明確化にフォーカスしよう。そのための手法の1つにJTBDフレームワークがある。
・問題解決の優先度を評価するための観点を知ろう。その観点リストの1つにRICEフレームワークがある。
・PBIの相対的な優先順位づけも大事だが、その前に必ずプロダクト戦略へのアラインを確認しよう。
API設計まとめ, KNR109, 2024.02
Paper/Blog Link My Issue
#Article #API Issue Date: 2024-09-30
Evaluating the Effectiveness of LLM-Evaluators (aka LLM-as-Judge), 2024.09
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Evaluation #LLM-as-a-Judge #One-Line Notes Issue Date: 2024-09-30 Comment
LLM-as-a-judgeについて網羅的に書かれた記事
RAGの実装戦略まとめ, Jin Watanabe, 2024.03
Paper/Blog Link My Issue
#Article #InformationRetrieval #NLP #LanguageModel #RAG(RetrievalAugmentedGeneration) Issue Date: 2024-09-29
Llama 3.2: Revolutionizing edge AI and vision with open, customizable models, Meta, 2024.09
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #LanguageModel #SmallModel #OpenWeight #VisionLanguageModel #KeyPoint Notes #EdgeDevices Issue Date: 2024-09-25 Comment
11Bと90BのVLMと、エッジデバイス向けの1B, 3BのSLMを発表。
Llama3.2のVLMでは、事前学習されたimage encoderを事前学習された言語モデルに対して組み合わせるためのAdapterを複数学習することによって実現。
具体的には、Llama 3.1(text only model)に対して、image encoderとAdapterを追加し、大規模でノイジーな(image,text)ペアで事前学習。続いて、中規模のサイズの高品質なin-domain(i.e. 様々なドメインの)の知識を高めるような(image,text)ペアで学習した。
事後学習では、Llama3.1と同様にSFT, Rejection Sampling, DPOのラウンドを複数回繰り返した。Llama3.1を用いて、in-domainの画像に対するQAをData Augmentationし、フィルタリングすることで合成データを作成。さらに報酬モデルを活用して全ての回答候補をランクづけして高品質なSFTデータを取得。また、モデルの安全性が高まるようなデータも追加した。
Llama3.1の事後学習のプロセスについては 論文紹介 / The Llama 3 Herd of Models, 2024.08
も参照のこと。
Pluggyとは, 2023.02
Paper/Blog Link My Issue
#Article #Library #python #KeyPoint Notes Issue Date: 2024-09-12 Comment
pluggyに関する概要が説明されている。
公式の説明を読むとpytestで採用されており、pluggyは関数フックを可能にし、プラグインをインストールするだけでホストプログラムの動作を拡張、または変更できるようになる代物とのこと(=プラガブル?)。
pluggyがなぜ有用なのかの説明については、Pythonでは、他のプログラムやライブラリの動作を変更するための既存のメカニズムとして、メソッドのオーバーライドやモンキーパッチが存在するが、複数の関係者が同じプログラムの変更に参加したい場合、これらが問題を引き起こすので、pluggyはこれらのメカニズムに依存せず、より構造化されたアプローチを可能にし、状態や動作の不必要な露出を避けるとのこと。これにより、ホストとプラグインの間が疎結合になるので、問題が軽減されるとのこと。
Late Chunking: Balancing Precision and Cost in Long Context Retrieval, Pierse+, 2024.09
Paper/Blog Link My Issue
#Article #Embeddings #InformationRetrieval #NLP #RAG(RetrievalAugmentedGeneration) #Selected Papers/Blogs #One-Line Notes Issue Date: 2024-09-08 Comment
chunkingしてからembeddingを取得するより、全体のドキュメントに対してcontextualなtoken embeddingを取得し、その後chunkingをしてpoolingしてsingle vectorにする方が、文書の文脈情報がembedding内で保持されやすいので、precisionが上がりますよ、という話
NewsPicksに推薦システムを本番投入する上で一番優先すべきだったこと, 2024.08
Paper/Blog Link My Issue
#Article #RecommenderSystems #NeuralNetwork #CTRPrediction #NewsRecommendation #MLOps #Evaluation #A/B Testing #One-Line Notes #Reading Reflections Issue Date: 2024-08-31 Comment
>推薦モデルの良し悪しをより高い確度で評価できる実験を、より簡単に実行できる状態を作ることでした。平たく言えば「いかにA/Bテストしやすい推薦システムを設計するか」が最も重要だった訳です。
オフライン評価とオンライン評価の相関がない系の話で、A/Bテストを容易に実施できる環境になかった、かつCTRが実際に向上したモデルがオフライン評価での性能が現行モデルよりも悪く、意思決定がなかなかできなかった、という話。
うーんやはり、推薦におけるオフライン評価ってあまりあてにできないよね、、、
そもそも新たなモデルをデプロイした時点で、テストした時とデータの分布が変わるわけだし、、、
Off-Policy Evaluationの話は勉強したい。
あと、定性評価は重要
AutoMLOpsを使って機械学習CI_CDパイプラインを組んでみた, 2024.08
Paper/Blog Link My Issue
#Article #MachineLearning #MLOps #python #SoftwareEngineering #One-Line Notes Issue Date: 2024-08-27 Comment
pythonコードでコンポーネントや、パイプラインを関数の形で記述するだけで、MLのCI/CDパイプラインをVertexAI上に自動構築できる模様。非常にお手軽で、多くの設定ファイルなどは自動生成されるようなので、簡単に始めることができそう。
記事中では、多クラス分類器を学習するためのデータをBigQueryから取得、モデル訓練、デプロイ、推論エンドポイント生成、モニタリングなどを簡単なコードベースで実現できている。便利そうではある。
細かいチューニングも自動生成された設定ファイルをいじれば可能だと思われる。
10Xの推薦を作るチームとML platform, 2024.08
Paper/Blog Link My Issue
#Article #RecommenderSystems #MachineLearning #Initial Impression Notes Issue Date: 2024-08-27 Comment
初期開発における定性評価の重要性やインターリービングの話題など実用的な内容が書かれているように見える。あとで読む。
定性評価が重要という話は、
- NewsPicksに推薦システムを本番投入する上で一番優先すべきだったこと, 2024.08
でも言及されている
RAG入門: 精度改善のための手法28選, 2024.08
Paper/Blog Link My Issue
#Article #InformationRetrieval #NLP #LanguageModel #RAG(RetrievalAugmentedGeneration) Issue Date: 2024-08-09
PLaMo-100B, PFN, 2024.08
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Supervised-FineTuning (SFT) #SyntheticData #Proprietary #Japanese #DPO #ModelMerge #KeyPoint Notes Issue Date: 2024-08-08 Comment
日本語のベンチマークでGPT4を超える性能を達成。
SFT, DPOで学習。学習データは、Publicなもの、プログラムで作成したもの、LLM自身に作成させたものを利用した。また、最終的なモデルに複数の候補があったのでモデルマージで良いところ取りをした。DPOで利用するpreferenceデータは、事後学習途中のモデルによって自動生成。
DeepSpeed, vLLM, CTranslate2 で rinna 3.6b の生成速度を比較する, 2024.06
Paper/Blog Link My Issue
#Article #EfficiencyImprovement #Library #python #OpenWeight #LLMServing #One-Line Notes #Reference Collection Issue Date: 2024-08-05 Comment
[vllm](
https://github.com/vllm-project/vllm)を使うのが一番お手軽で、inference速度が速そう。PagedAttentionと呼ばれるキャッシュを利用して高速化しているっぽい。
(図はブログ中より引用)
こちらも参照のこと
vLLMの仕組みをざっくりと理解する:
https://dalab.jp/archives/journal/vllm/#PagedAttention
vLLMでReasoning ModelをServingするときは、`--enable-reasoning`等の追加オプションを指定する必要がある点に注意
https://docs.vllm.ai/en/stable/features/reasoning_outputs.html
2024年版のDockerfileの考え方&書き方, 2024
Paper/Blog Link My Issue
#Article #One-Line Notes Issue Date: 2024-07-29 Comment
マルチステージビルド、成果物の考え方など
Deepでポン用実験管理ツール(サービス)の比較2021
Paper/Blog Link My Issue
#Article #ExperimentManagement #One-Line Notes Issue Date: 2024-07-09 Comment
[TensorBoard](
https://www.tensorflow.org/tensorboard/)
[MLflow](
https://mlflow.org/)
[Neptune.ai](
https://neptune.ai/)
[Weights & Biases](
https://wandb.ai/site)
[Comet](
https://www.comet.ml/site/)
の比較がされている
5行でカッコいい可視化を「WandB」入門
Paper/Blog Link My Issue
#Article #ExperimentManagement Issue Date: 2024-07-09
GENIAC: 172B 事前学習知見, 2024
Paper/Blog Link My Issue
#Article #Tutorial #Pretraining #NLP #LanguageModel #KeyPoint Notes Issue Date: 2024-07-08 Comment
LLMの事前学習における知見がまとまっている記事とのこと
・Megatron LMで学習
→ 3D Parallelismなどの分散学習手法によりHF Trainerより高速
→ Data Parallelim、Tensor Parallelism、 Pipeline Parallelismを組み合わせたもの
・GPUメンテナンス、不良で学習が継続できなかった場合はcheckpointをロードして学習
・学習曲線が安定しているように見えるがSpikeは発生している。発生時はgradient normが急激に上昇する
・LlamaなどのLLMからの継続的事前学習ではなくfrom scratchから学習しているので透明性が高い
・Transformer engineを利用
・AdamWを利用
・attention dropout, hidden dropoutは0.0
>この際、 通信を多く必要とする分散手法のワーカー(Tensor Parallelワーカー)はノード内に配置するようにMegatron-LMのデフォルトではなっているため、今回もそれを利用しました。このようにする理由は、ノード内の通信はNVLinkにより、ノード間通信よりも高速であるためです。また、Data Parallelの勾配平均化のための通信を考慮して、Data Parallelワーカーも可能な限りノード内に配置するMegatron-LMデフォルトの挙動を利用しました。
Pipeline Parallelismは他の並列化手法と比較して通信量が少ないP2P(Point-to-Point)通信であるため、パイプラインステージはノード間で配置するようにしました。これも、Megatron-LMデフォルトの挙動です。
勉強になる
・通常のデータ並列はoptimizer stateをworker間で複製するので遅い。Deep Speed Zero 1のように分散して保有することで高速化
・Tensor Parallelでself attention, MLPの計算を並列化できる
・LayerNormalization, Dropoutの演算もメモリ効率の観点から並列化
・学習を安定させるためにz-lossを利用
・batch skippingとは、gradient clippingを行っていてもなおspikeが生じる場合に、100 step前に戻り、spikeが生じた付近のデータを数百iteration程度スキップすること
推薦・機械学習勉強会, Wantedly
Paper/Blog Link My Issue
#Article #RecommenderSystems #Tutorial #One-Line Notes Issue Date: 2024-04-26 Comment
WantedlyさんのRecSys勉強会の資料がまとまったリポジトリ。継続的に更新されており、最近この辺のトピックは追いきれていないので非常に有用。
The End of Finetuning — with Jeremy Howard of Fast.ai, 2023.11
Paper/Blog Link My Issue
#Article #Pretraining #Supervised-FineTuning (SFT) Issue Date: 2024-04-26
「ビジネスロジック」とは何か、どう実装するのか
Paper/Blog Link My Issue
#Article #KeyPoint Notes Issue Date: 2024-04-21 Comment
普段あいまいに使いがちなビジネスロジックについて、勉強になった。
- プレゼンテーション層:ユーザからのI/Oのインタフェースに関する処理を実装
- データアクセス層:ファイルやDBに対してデータを読み書き
本記事によると上記以外が「ビジネスロジック」という整理。
たとえば、じゃんけんの実装を例に説明がなされており、
- 「じゃんけんの勝敗判定」:コアなルール系
- 「コンピュータとじゃんけんをして、その結果をどこかに保存する処理を呼び出すという流れ」:処理の流れ系
の両者はビジネスロジックに該当するとのこと。
The State of Multilingual AI, Sebastian Ruder, 2024
Paper/Blog Link My Issue
#Article #LanguageModel #MultiLingual Issue Date: 2024-04-12
Chat with RTX, NVIDIA
Paper/Blog Link My Issue
#Article Issue Date: 2024-04-08
Mamba Explained
Paper/Blog Link My Issue
#Article #LanguageModel Issue Date: 2024-04-02
IT契約入門〜雇用契約、請負契約から準委任まで
Paper/Blog Link My Issue
#Article Issue Date: 2024-03-31
生産性指標をFour Keysから変更した話, SanSan Tech Blog
Paper/Blog Link My Issue
#Article #One-Line Notes Issue Date: 2024-03-21 Comment
モバイルアプリ開発における生産性指標に関するお話。Four Keysをモバイルアプリに適用した場合の課題を分析し、自チームの中長期的な目標を達成するためにどのような生産性指標を採用すべきかが言語化されており、興味深かった。
Four Keysとは:
https://blog.recruit.co.jp/rls/2021-03-31-four-keys/#whats-four-keys
Open Release of Grok-1 March 17, 2024
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #MoE(Mixture-of-Experts) #One-Line Notes Issue Date: 2024-03-18 Comment
Apache2.0ライセンス, 314Bパラメータでモデルの重み、Mixture-of-Expertsを採用している。学習データ、学習に利用したコードはおそらく公開されていない。
Grok-1.5がリリース
https://x.ai/blog/grok-1.5
各種ベンチマークの性能、特にMathの性能が向上し、コンテキスト長が128kに
RAG-Research-Insights
Paper/Blog Link My Issue
#Article #Tutorial #Survey #InformationRetrieval #NLP #LanguageModel #RAG(RetrievalAugmentedGeneration) #Reading Reflections Issue Date: 2024-03-05 Comment
RAGに関する研究が直近のものまでよくまとめられている
awesome-generative-information-retrieval
Paper/Blog Link My Issue
#Article #Tutorial #Survey #InformationRetrieval #LanguageModel Issue Date: 2024-02-22
LLMにおける情報抽出(文章から必要な事柄を読み取る)タスクについての調査, AIDB
Paper/Blog Link My Issue
#Article #NLP #InformationExtraction Issue Date: 2024-01-16
Decoding Strategies that You Need to Know for Response Generation
Paper/Blog Link My Issue
#Article #NaturalLanguageGeneration #NLP #LanguageModel #One-Line Notes Issue Date: 2024-01-01 Comment
言語モデルのdecodingの方法についてよくまとまっている。まとめられているdecoding方法は以下
- Greedy, BeamSearch, RandomSampling, Temperature, Top-K Sampling, Nucleus Sampling
こちらの記事ではHuggingFaceでの実装や他のdecoding方法等、より実装面での詳細が記述されている:
https://note.com/npaka/n/n9a8c85f2ef7a
Structured Hierarchical Retrieval, llama-index
Paper/Blog Link My Issue
#Article #InformationRetrieval #NLP #RAG(RetrievalAugmentedGeneration) Issue Date: 2023-12-21 Comment
元ツイート:
Build a search engine, not a vector DB
Paper/Blog Link My Issue
#Article #InformationRetrieval #RAG(RetrievalAugmentedGeneration) Issue Date: 2023-12-21
ELYZA-tasks-100 でLLM14個の日本語性能を横断評価してみた
Paper/Blog Link My Issue
#Article #LanguageModel Issue Date: 2023-12-20
TokyoTechLLM
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #FoundationModel #Japanese #mid-training #KeyPoint Notes Issue Date: 2023-12-19 Comment
Llama2の日本語性能を継続事前学習で引き上げたLLM。2023年12月時点の日本語オープンソースLLMの中で最高性能とのこと。
開発者の方による詳細はこちら:
https://zenn.dev/tokyotech_lm/articles/d6cb3a8fdfc907
すごい読み応え…checkpointの容量のデカさや、A100x8 60ノード使った話や、ノード不良やスケジュール管理の話、独自に実装をゴリゴリ加えたものではなく最終的に完成度の高さからMegatronLMを採用した話など、バグった規模感と試行錯誤や実体験に基づくエピソード満載。
【続】Flash Attentionを使ってLLMの推論を高速・軽量化できるか?, jobyan, Qiita, 2023.09
Paper/Blog Link My Issue
#Article #EfficiencyImprovement #NLP #LanguageModel #Attention #KeyPoint Notes Issue Date: 2023-12-14 Comment
use_cacheがTrue/Falseの場合のFlashAttention2のinference timeとVRAM使用量の傾向をsequence_lengthごとに考察している。
use_cacheはKey Value cacheのオンオフを切り替えられるオプションである。autoregressiveなモデルのinference時には、何度も同じinput tokenに対するKVの計算が生じるため(M番目のトークンを生成した後、M+1番目のトークンの生成をする場合、M-1番目までのトークンのKVを再計算せねばならない)、cacheをすることで大幅に計算速度が改善される。
use_cacheをTrueにできるならFlashAttention2の恩恵は小さい(inference timeが少し早くなるのみ)ため、潤沢なVRAMがあるなら得られる恩恵は小さい。
逆にVRAM節約してuse_cacheをFalseにせざるを得ないのであれば、FlashAttention2によりVRAM使用量をsequence_legthの線形に抑えることができ、かつinference timeも短くなる。
↑上記はあくまでinferenceをする場合のみの話であり(train時はautoregressive modelではcausal maskを用い、teacher forcingで並列にトークンを生成するためそもそもKV-cacheする意味がない)、trainingをする場合FlashAttention2で大幅にVRAM使用量を減らせるので、そこは分けて考えること。
https://qiita.com/jovyan/items/ff3d0a49163c7afa33ce
Flash Attentionを使ってLLMの推論を高速・軽量化できるか?
https://qiita.com/jovyan/items/11deb9d4601e4705a60d
こちらの記事も非常に勉強になる
大規模モデルを支える分散並列学習のしくみ Part1
Paper/Blog Link My Issue
#Article #LanguageModel Issue Date: 2023-12-13
Gemini, Google, 2023.12
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Proprietary #KeyPoint Notes #Reference Collection Issue Date: 2023-12-07 Comment
多くのベンチマークでGPT4超えらしい
(追記1)
テクニカルレポートのp.44を見ると、ブログポスト中のGPT4のMMLUのスコアはGPT-4-0613のもののようなので、これが正しいとすると他のベンチマークのスコアも同モデルのものである可能性が高く、GPT-4-1163-preview(最新モデル)のスコアでは"ないかもしれない"点に注意。GPT4とどちらが実際に性能が良いか?については様子見した方が良さそう。
(追記2)
GSM8Kの結果も、GPT4に対してFair Comparisonではないかもしれない点に注意。Geminiは32個のCoTとSelf-Consistencyを利用しているが、GPT4では5-shotで単一のCoTのみであるため、prompting手法ではGeminiに有利な比較となっているように見える。ただしGPT4はGSM8Kの訓練データを事前学習時にMIXしている(SFT)ので、Geminiがこのようなことをしていないのであれば、この点ではGPT4が有利になっている“可能性”がある。
他にもFair Comparisonになっていないと推察されるものはTextモダリティでの評価の表の文言を見るとありそうなのでそこは念頭においた方が良さそうである。
テクニカルレポート: https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf
Gemini Summary
MMLUでの同じprompting手法でのGPT-4-0613との比較。32個のCoTでのSelf-Consistencyで比較した場合、GPT-4-0613に負けているが、閾値を設けてconfidenceが閾値以上の場合はSelf-consistency, そうでない場合はgreedyに生成した結果を選択する、というUncertain-Routed CoT@32では、Geminiのパフォーマンスgainが大きくGPT-4-0613よりも高い性能を示している。
ブログポスト中のGPT4のスコアは5-shotのもの(reportedと書かれているのでOpenAIが公表している数値と推察)であり、Geminiの結果はUncertain-Routed CoT@32の結果であるため、Fair Comparisonになっていないかもしれない?点には注意。
レポート中ではSelf-consistencyという単語でこの部分は書かれていないが、実は少しやっていること違ってたりする…?
もし明日、上司に「GPT-4を作れ」と言われたら? Stability AIのシニアリサーチサイエンティストが紹介する「LLM構築タイムアタック」
Paper/Blog Link My Issue
#Article #LanguageModel #One-Line Notes #Reading Reflections Issue Date: 2023-12-05 Comment
StabilityAI Japan秋葉さん(元PFN)のW&B Conferenceでの発表に関する記事。
LLM構築タイムアタックでLLMをもし構築することになったら!?
のざっくりとしたプロセスや、次ページでOpenAIのGPT4のテクニカルレポートのクレジットから各チームの規模感を推定して、どの部分にどの程度の人員が割かれていたのかというのをベースに、各パートでどんなことがやられていそうかという話がされている。
LLM構築タイムアタックで、まずGPUを用意します!(ここが一番大変かも)の時点で、あっ察し(白目 という感じがして面白かった。
kaggle LLM コンペ 上位解法を自分なりにまとめてみた話
Paper/Blog Link My Issue
#Article #InformationRetrieval #NLP #LanguageModel #RAG(RetrievalAugmentedGeneration) Issue Date: 2023-12-04 Comment
実践的な内容(チャンク生成時の工夫、クエリ生成時の工夫等)が網羅的にまとまっており非常に有用
個人的に、コンペ主催者側から提供されたデータが少なく、上位のほとんどのチームがChatGPT(3.5, 4)を用いて、QAデータを生成していた、というのが興味深かった。プロンプトはたとえば下記:
[(5th-place-solution)](
https://www.kaggle.com/competitions/kaggle-llm-science-exam/discussion/446293)より引用
```
system_content = """
Forget all the previous instruction and rigorously follow the rule specified by the user.
You are a professional scientist's assistant.
"""
user_content_template_qa = Template(
"""
Please consider 5 choices question and answer of the following TEXT.
The purpose of this question is to check respondent's deep science understanding of the TEXT.
We assume this question is for professional scientists, so consider super difficult question.
You can ask very detailed question, for example check specific sentence's understanding.
It is good practice to randomly choose specific sentence from given TEXT, and make QA based on this specific sentence.
You must make QA based on the fact written in the TEXT.
You may create wrong answers based on the correct answer's information, by modifying some parts of the correct answer.
Your response must be in following format, don't write any other information.
You must not include "new line" in each Q), 1), 2), 3), 4), 5), and A):
Q) `question text comes here`
1) `answer candidate 1`
2) `answer candidate 2`
3) `answer candidate 3`
4) `answer candidate 4`
5) `answer candidate 5`
A) `answer`
where only 1 `answer candidate` is the correct answer and other 4 choices must be wrong answer.
Note1: I want to make the question very difficult, so please make wrong answer to be not trivial incorrect.
Note2: The answer candidates should be long sentences around 30 words, not the single word.
Note3: `answer` must be 1, 2, 3, 4 or 5. `answer` must not contain any other words.
Note4: Example of the question are "What is ...", "Which of the following statements ...", "What did `the person` do",
and "What was ...".
Note5: Question should be science, technology, engineering and mathematics related topic.
If the given TEXT is completely difference from science, then just output "skip" instead of QA.
Here is an example of your response, please consider this kind of difficulty when you create Q&A:
Q) Which of the following statements accurately describes the impact of Modified Newtonian Dynamics (MOND) on the observed "missing baryonic mass" discrepancy in galaxy clusters?"
1) MOND is a theory that reduces the observed missing baryonic mass in galaxy clusters by postulating the existence of a new form of matter called "fuzzy dark matter."
2) MOND is a theory that increases the discrepancy between the observed missing baryonic mass in galaxy clusters and the measured velocity dispersions from a factor of around 10 to a factor of about 20.
3) MOND is a theory that explains the missing baryonic mass in galaxy clusters that was previously considered dark matter by demonstrating that the mass is in the form of neutrinos and axions.
4) MOND is a theory that reduces the discrepancy between the observed missing baryonic mass in galaxy clusters and the measured velocity dispersions from a factor of around 10 to a factor of about 2.
5) MOND is a theory that eliminates the observed missing baryonic mass in galaxy clusters by imposing a new mathematical formulation of gravity that does not require the existence of dark matter.
A) 4
Let's start. Here is TEXT: $title\n$text
"""
)
```
PMConf2023: シリコンバレーのプロダクトマネージャー達に見る、 覚悟を決めたPMは何が違うのか?
Paper/Blog Link My Issue
#Article #Mindset Issue Date: 2023-12-04 Comment
視野、視座の話、StepChange、PMとして何に注力すべきか、クリティカルシンキング、Overcommunicationなどの考え方が参考になった。
結局どれだけ収益に繋がるのかという話。ユーザに価値を届けられて満足、で終わってはいけない。
Deconstructing RAG
Paper/Blog Link My Issue
#Article #Tutorial #RAG(RetrievalAugmentedGeneration) Issue Date: 2023-11-22 Comment
RAGにおける様々な戦略がまとまっている(リンク付き
AWS FargateではなくECS on EC2を選ぶメリット〜コスト編〜, UZABASE for Engineers, 2022.12
Paper/Blog Link My Issue
#Article #AWS #Infrastructure #ECS Issue Date: 2023-11-21 Comment
安く済ませたい・・・
Zephyr-7B-beta, RAG Perf.
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Evaluation #RAG(RetrievalAugmentedGeneration) #OpenWeight #One-Line Notes Issue Date: 2023-11-21 Comment
Zephyr-7B-betaのRAGでの性能がデータセットで評価されている
下記Xポストによるとgpt-3.5-turboと同等
Practical Tips for Finetuning LLMs Using LoRA (Low-Rank Adaptation), SEBASTIAN RASCHKA, PHD, 2023.11
Paper/Blog Link My Issue
#Article #Tutorial #NLP #LanguageModel #Supervised-FineTuning (SFT) #PEFT(Adaptor/LoRA) #PostTraining Issue Date: 2023-11-20
ChatGPTに社内文書に基づいた回答を生成させる仕組みを構築しました, コネヒト TECH BLOG, 2023.11
Paper/Blog Link My Issue
#Article #NLP #Infrastructure #MLOps #RAG(RetrievalAugmentedGeneration) #KeyPoint Notes #Reading Reflections Issue Date: 2023-11-15 Comment
低コストで社内文書に対するRAGを実現することに注力している。
以下、図はブログから引用。
基本的にはバッチジョブで社内文書をベクトル化しS3へ格納。アプリ起動時にS3から最新データを読み込み検索可能にしRAGするという流れ。
低コスト化のために、Embedding作成にOpenWeightの言語モデル(text-edbedding-ada002と同等の性能)を利用している。実装は基本的にllamaindexを利用している。
特に日本語テキストにおいてはtext-embedding-ada002は OpenAI の Embeddings API はイケてるのか、定量的に調べてみる, akeyhero (Akihiro Katsura), Qiita, 2023.04 において、JSTSタスクにおいてあまり性能が高くない(ただし、OpenAI の Embeddings API はイケてるのか、定量的に調べてみる, akeyhero (Akihiro Katsura), Qiita, 2023.04 での報告値は基本的にJSTSデータでfinetuningされてた結果と思われる)と言われているので、お金かけて無理して使う必要はないのかなという印象はある。
Transformers.js, 2023
Paper/Blog Link My Issue
#Article #Library #Transformer #Frontend #One-Line Notes Issue Date: 2023-11-13 Comment
ブラウザ上でTransformerベースの様々なモデルを動作させることができるライブラリ
Boosting RAG: Picking the Best Embedding & Reranker models
Paper/Blog Link My Issue
#Article #RAG(RetrievalAugmentedGeneration) Issue Date: 2023-11-13
生成AIが抱えるリスクと対策, 髙橋翼, LYCorp‘23, 2023.11
Paper/Blog Link My Issue
#Article #Tutorial #NLP #LanguageModel #Alignment #GenerativeAI #Hallucination #Safety #Reading Reflections Issue Date: 2023-11-03 Comment
この資料をスタートにReferしている論文などを勉強すると、GenerativeAIのリスク周りに詳しくなれそう。この辺は疎いので勉強になる。
しかし、LLMのAlignmentが不十分だったり、Hallucinationを100%防ぐことは原理的に不可能だと思われるので、この辺とどう付き合っていくかがLLMと付き合っていく上で難しいところ。この辺は自分たちが活用したいユースケースに応じて柔軟に対応しなければならず、この辺の細かいカスタマイズをする地道な作業はずっと残り続けるのではないかなあ
Zero-shot Learning網羅的サーベイ: CLIPが切り開いたVision & Languageの新しい世界, エクサウィザーズ Engineer Blog, 2023.05
Paper/Blog Link My Issue
#Article #Survey #ComputerVision #NaturalLanguageGeneration #NLP #LanguageModel #ImageCaptioning #DiffusionModel #Initial Impression Notes Issue Date: 2023-11-02 Comment
これはすごいまとめ…。まだ途中までしか読めていない。CLIPからスタートしてCLIPを引用している論文から重要なものを概要付きでまとめている。
NTT版大規模言語モデル「tsuzumi 2」, NTT人間情報研究所
Paper/Blog Link My Issue
#Article #EfficiencyImprovement #NLP #LanguageModel #MultiModal #FoundationModel #KeyPoint Notes Issue Date: 2023-11-01 Comment
**(追記 2026.03: 以下の記述内容は上記ページがリリースされた当初のものであり、現在は上記ページの内容は更新されているようですので、ご注意ください。 )**
NTT製のLLM。パラメータ数は7Bと軽量だが高性能。
MTBenchのようなGPT4に勝敗を判定させるベンチマークで、地理、歴史、政治、社会に関する質問応答タスク(図6)でgpt3.5turboと同等、国産LLMの中でトップの性能。GPT3.5turboには、コーディングや数学などの能力では劣るとのこと。
> *6 Rakudaベンチマーク
日本語の言語モデルの性能を評価するベンチマークの一つで、日本の地理・政治・歴史・社会に関する質問応答タスクによって評価を行う。
URL:
https://yuzuai.jp/benchmark
>*7 Japanese Vicuna QAベンチマーク
Rakudaよりもさらに幅広いカテゴリで言語モデルのQAや指示遂行の能力を問う評価方法。一般知識、ロールプレイなど多数の質問から構成される。
URL:
https://github.com/hitoshizuku7/LLM_Judge_ku/blob/main/README.md
tsuzumiはアダプタを追加することで、モデル全体のパラメータを更新することなく、さまざまな知識を持たせたり、振る舞いを変えたりできるようになるとのこと(LoRAアダプタのようなものだと思われる)。
まて、将来的に視覚や聴覚などのマルチモーダル対応も実施。
思想がLoRA Hub [Paper Note] LoraHub: Efficient Cross-Task Generalization via Dynamic LoRA Composition, Chengsong Huang+, arXiv'23, 2023.07 に近く、アダプタを着脱すれば柔軟に生成を変えられるのは有用だと思う。
大規模言語モデルのFine-tuningによるドメイン知識獲得の検討, PFN Blog, 2023.10
Paper/Blog Link My Issue
#Article #EfficiencyImprovement #NLP #LanguageModel #Supervised-FineTuning (SFT) #PEFT(Adaptor/LoRA) #Catastrophic Forgetting Issue Date: 2023-10-29
大規模言語モデルにおいて、「知識は全結合層に蓄積される」という仮説についての文献調査, Kan Hatakeyama, 2023.10
Paper/Blog Link My Issue
#Article #Analysis #MachineLearning #Transformer #FactualKnowledge #One-Line Notes Issue Date: 2023-10-29 Comment
タイトルの通り、知識がFFNに蓄積されていると主張しているらしい原論文を読み解いている。まとめを引用すると
> 「知識は全結合層に蓄積される」という表現は、ややラジカルで、
少なくともこの論文では「全結合層は知識獲得において重要」という程度
の、もう少しマイルドな主張をしているように見受けられました。
とのこと。
StableDiffusion, LLMのGPUメモリ削減のあれこれ, nishiba, Qiita, 2023.10
Paper/Blog Link My Issue
#Article #NeuralNetwork #ComputerVision #EfficiencyImprovement #NLP #LanguageModel #DiffusionModel #Reading Reflections Issue Date: 2023-10-29 Comment
Gradient Accumulation, Gradient Checkpointingの説明が丁寧でわかりやすかった。
LLMのプロンプト技術まとめ, fuyu_quant (Toma Tanaka), Qiita, 2023.10
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Prompting #Reading Reflections Issue Date: 2023-10-29 Comment
ざっと見たが現時点で主要なものはほぼ含まれているのでは、という印象
実際のプロンプト例が載っているので、理解しやすいかもしれない。
Evaluating RAG Pipelines, LangChain Blog, 2023.10
Paper/Blog Link My Issue
#Article #Tools #NLP #LanguageModel #Library #Evaluation #RAG(RetrievalAugmentedGeneration) #KeyPoint Notes Issue Date: 2023-10-29 Comment
RAG pipeline (retrieval + generation)を評価するライブラリRagasについて紹介されている。
評価に活用される指標は下記で、背後にLLMを活用しているため、大半の指標はラベルデータ不要。ただし、context_recallを測定する場合はreference answerが必要。
Ragasスコアとしてどのメトリックを利用するかは選択することができ、選択したメトリックのharmonic meanでスコアが算出される。
各種メトリックの内部的な処理は下記:
- faithfullness
- questionと生成された回答に基づいて、statementのリストをLLMで生成する。statementは回答が主張している内容をLLMが解釈したものだと思われる。
- statementのリストとcontextが与えられたときに、statementがcontextにsupportされているかをLLMで評価する。
- num. of supported statements / num. of statements でスコアが算出される
- Answer Relevancy
- LLMで生成された回答から逆に質問を生成し、生成された質問と実際の質問の類似度を測ることで評価
- Context Relevancy
- どれだけcontextにノイズが含まれるかを測定する。
- LLMでcontextの各文ごとに回答に必要な文か否かを判断する
- 回答に必要な文数 / 全文数 でスコアを算出
- Context Recall
- 回答に必要な情報を全てretrieverが抽出できているか
- ground truthとなる回答からstatementをLLMで生成し、statementがcontextでどれだけカバーされているかで算出
また、LangSmithを利用して実験を管理する方法についても記述されている。
LangChainのRAGの改善法, LayerX機械学習勉強会
Paper/Blog Link My Issue
#Article #Tools #NLP #LanguageModel #Library #RAG(RetrievalAugmentedGeneration) #One-Line Notes Issue Date: 2023-10-29 Comment
以下リンクからの引用。LangChainから提供されているRetrieverのcontext抽出の性能改善のためのソリューション
> Multi representation indexing:検索に適した文書表現(例えば要約)の作成
Query transformation:人間の質問を変換して検索を改善する方法
Query construction:人間の質問を特定のクエリ構文や言語に変換する方法
https://blog.langchain.dev/query-transformations/
日本語LLMのリーダーボード(LLM.jp), Weights & Biases
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Evaluation #KeyPoint Notes #Reading Reflections Issue Date: 2023-10-27 Comment
LLM.jpによる日本語LLMのリーダーボード。4-shotsでの結果、かつinstructionを与えた場合の生成テキストに対する評価、という点には留意したい。たとえばゼロショットで活用したい、という場合にこのリーダーボードの結果がそのまま再現される保証はないと推察される。
日本語LLMベンチマークと自動プロンプトエンジニアリング, PFN Blog, 2023.10
の知見でもあった通り、promptingの仕方によってもLLM間で順位が逆転する現象なども起こりうる。あくまでリーダーボードの値は参考値として留め、どのLLMを採用するかは、自分が利用するタスクやデータで検証した方がbetterだと思われる。
あとはそもそも本当にLLMを使う必要があるのか? [Paper Note] Prompt2Model: Generating Deployable Models from Natural Language Instructions, Vijay Viswanathan+, arXiv'23, 2023.08
のような手法ではダメなのか?みたいなところも考えられると良いのかもしれない。
以下サイトより引用
> 評価手法・ツール
このダッシュボードの内容はllm-jpで公開している評価ツール、llm-jp-evalで各モデルに対して評価を行なった結果である。llm-jp-evalは、既存のリーダボードとは行われている評価とは、主に以下のところで違っている。
AlpacaやBig-Benchなどを参考にした、インストラクションチューニングよりのプロンプトを入力として与えて、その入力に対するモデルの生成結果を評価する
>評価は基本、モデルが生成した文字列だけを使って行う
>Few shotでの評価を行っており、このダッシュボードには4-shotsでの結果を載せている
>評価手法・ツールの詳細はllm-jp-evalを是非参照されたい。
>評価項目・データセット
評価項目として、まず4つのカテゴリーにおける平均スコアを算出した。さらにその4カテゴリーの平均値の平均値をとった値がAVGである。
MC (Multi-Choice QA):jcommonsenseqa
NLI (Natural Language Inference):jamp、janli、jnli、jsem、jsick
QA (Question Answering):jemhopqa、niilc
RC (Reading Comprehension):jsquad
>それぞれのカテゴリの平均を出す方法に言語学的な意味はないため、最終的な平均値はあくまで参考値ということに注意されたい。
JGlueを利用した日本語LLMのリーダーボードとして Nejumi LLMリーダーボード, Weights & Biases などもある
日本語大規模言語モデル「Japanese Stable LM 3B-4E1T」「Japanese Stable LM Gamma 7B」を公開しました, 2023
Paper/Blog Link My Issue
#Article #NLP #LanguageModel Issue Date: 2023-10-25
CTO handbook
Paper/Blog Link My Issue
#Article #Mindset #Repository Issue Date: 2023-10-24
日本語LLMベンチマークと自動プロンプトエンジニアリング, PFN Blog, 2023.10
Paper/Blog Link My Issue
#Article #Analysis #NLP #Prompting #AutomaticPromptEngineering #One-Line Notes Issue Date: 2023-10-13 Comment
面白かった。特に、promptingによってrinnaとcyberのLLMの順位が逆転しているのが興味深かった。GAを使ったプロンプトチューニングは最近論文も出ていたが、日本語LLMで試されているのは面白かった。
CTOの頭の中:技術を財務で表現する
Paper/Blog Link My Issue
#Article #Mindset Issue Date: 2023-09-30
Lessons Learnt From Consolidating ML Models in a Large Scale Recommendation System, Netflix Technology Blog, 2023.08
Paper/Blog Link My Issue
#Article #RecommenderSystems #MLOps #KeyPoint Notes Issue Date: 2023-09-05 Comment
推薦システムには様々なusecaseが存在しており、それらは別々に運用されることが多い。
- user-item recommendation
- item-item recommendation
- query-item recommendation
- category-item recommendation
このような運用はシステムの技術負債を増大させ、長期的に見るとメンテナンスコストが膨大なものとなってしまう。また、多くの推薦システムには共通化できる部分がある。
これら異なるusecaseの推薦システムをmulti-taskなモデルに統合し技術負債を軽減した経験が記述されている。
これが
このようなsingle multi-task modelを学習する構造に置き換わり、
その結果
- code量とデプロイの管理・メンテナンスコストの低減
- 保守性の向上
- 単一化されたコードベースが、緊急時の対応を容易にした
- あるユースケースで新たなfeatureを試し効果があった場合、他のユースケースに迅速に展開可能(同じパイプラインなので)
- ただし、multi taskの場合は特定のタスクに効果があったfeatureの導入により他タスクの性能が低下する懸念がある
- が、タスク間の関連性が高い場合(今回のような場合)、それは問題とならなかったことが記述されている
- 柔軟な設計の実現
- 複数のユースケースを一つのモデルに統合することは、複数のユースケースを組み込むための柔軟な設計が求められる
- これを実現したことにより、拡張性が増大した
- 結論
- このような統合がコードを簡略化し、イノベーションを加速させ、システムの保守性を向上させるシナリオが多くある
- ただし、ランキングの対象が異なっていたり、入力として活用する特徴量が大きく異なるモデル間で、このような統合の実施に適しているかは自明ではない
LLMのファインチューニング で 何ができて 何ができないのか, npaka, 2023.08
Paper/Blog Link My Issue
#Article #Tutorial #NLP #LanguageModel #Supervised-FineTuning (SFT) #mid-training #PostTraining #needs-revision Issue Date: 2023-08-29 Comment
>LLMのファインチューニングは、「形式」の学習は効果的ですが、「事実」の学習は不得意です。
> シェイクスピアの脚本のデータセット (tiny-shakespeare) の
「ロミオ」を「ボブ」に置き換えてファインチューニングして、新モデルの頭の中では「ロミオ」と「ボブ」をどう記憶しているかを確認します。
ファインチューニングしても、Bで始まるジュリエットが恋する人物について質問しても、ボブと答えてはくれない。
> ロミオ」は「ジュリエット」が恋していたこの男性に関連付けられており、「ロミオ」を「ボブ」に置き換えるファインチューニングでは、ニューラルネットワークの知識ベースを変更することはできませんでした。
なるほど。
参考: https://www.anyscale.com/blog/fine-tuning-is-for-form-not-facts?ref=blog.langchain.dev
関連:
Metaの「Llama 2」をベースとした商用利用可能な日本語LLM「ELYZA-japanese-Llama-2-7b」を公開しました, 株式会社ELYZA 公式ブログ, 2023.08
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Library #OpenWeight #Japanese #KeyPoint Notes Issue Date: 2023-08-29 Comment
商用利用可能、70億パラメータ。
ELYZA社が独自に作成した評価セットでは日本語のOpenLLMの中で最高性能。ただし、モデル選定の段階でこの評価データの情報を利用しているため、有利に働いている可能性があるとのこと。
一般的に利用される日本語の評価用データでは、なんとも言い難い。良いタスクもあれば悪いタスクもある。が、多分評価用データ自体もあまり整備は進んでいないと想像されるため、一旦触ってみるのが良いのだと思う。
走行動画を説明するLLMを作成し、80台のGPUで分散並列学習させた話, Kotaro Tanahashi, Tech Blog - Turing, 2023.07
Paper/Blog Link My Issue
#Article #ComputerVision #NaturalLanguageGeneration #NLP Issue Date: 2023-08-16
OpenAI の Embeddings API はイケてるのか、定量的に調べてみる, akeyhero (Akihiro Katsura), Qiita, 2023.04
Paper/Blog Link My Issue
#Article #Embeddings #NLP #LanguageModel #STS (SemanticTextualSimilarity) #Encoder #One-Line Notes Issue Date: 2023-07-31 Comment
[JSTSタスク](
https://github.com/yahoojapan/JGLUE)では、[Tohoku
BERT v3](
https://github.com/cl-tohoku/bert-japanese/tree/main#model-performances)
と [LUKE](
https://github.com/studio-ousia/luke)が最も性能が良いらしい。
[SimCSE](
https://huggingface.co/pkshatech/simcse-ja-bert-base-clcmlp)よりも性能が良いのは興味深い。
Chatbot Arena Conversation Dataset Release, LMSYS Org, 2023.07
Paper/Blog Link My Issue
#Article #NLP #Dataset #LanguageModel #DialogueGeneration #One-Line Notes Issue Date: 2023-07-22 Comment
33kのconversation、2つのレスポンスに対する人間のpreferenceスコア付き
20種類のSoTAモデルのレスポンスを含み、13kのユニークIPからのアクセスがあり、3Kのエキスパートによるアノテーション付き
Auto train advanced
Paper/Blog Link My Issue
#Article #MachineLearning #Tools #LanguageModel #Supervised-FineTuning (SFT) #Repository #PEFT(Adaptor/LoRA) #One-Line Notes #needs-revision Issue Date: 2023-07-11 Comment
Hugging Face Hub上の任意のLLMに対して、localのカスタムトレーニングデータを使ってfinetuningがワンラインでできる。
peftも使える。
現在はもうメンテナンスされていないようだ。
Open Source AI Game Jam, 2023
Paper/Blog Link My Issue
#Article #GenerativeAI #Game #One-Line Notes Issue Date: 2023-07-11 Comment
GenerativeAIを使ってゲームを作る取り組み
How Long Can Open-Source LLMs Truly Promise on Context Length?, 2023
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #LongSequence #One-Line Notes Issue Date: 2023-07-01 Comment
LLMのcontext長を伸ばす際の方法と得られた知見がまとめられている
The AI behind unconnected content recommendations on Facebook and Instagram, Meta, 2023.6
Paper/Blog Link My Issue
#Article #RecommenderSystems Issue Date: 2023-07-01
Prompt Engineering vs. Blind Prompting, 2023
Paper/Blog Link My Issue
#Article #Tutorial #NLP #LanguageModel #Prompting #One-Line Notes #needs-revision Issue Date: 2023-05-12 Comment
experimentalな手法でprompt engineeringする際のoverview
StarCoderBase_StarCoder, 2023
Paper/Blog Link My Issue
#Article #NaturalLanguageGeneration #NLP #LanguageModel #FoundationModel #Coding #KeyPoint Notes #needs-revision Issue Date: 2023-05-06 Comment
・15.5Bパラメータ
・80種類以上のプログラミング言語で訓練
・Multi Query Attentionを利用
・context window size 8192
・Fill in the middle objectiveを利用
Instruction tuningがされておらず、prefixとsuffixの間を埋めるような訓練のされ方をしているので、たとえば関数名をinputして、そのmiddle(関数の中身)を出力させる、といった使い方になる模様。
paper: https://drive.google.com/file/d/1cN-b9GnWtHzQRoE7M7gAEyivY0kl4BYs/view
StarCoder:
https://huggingface.co/bigcode/starcoder
StarCoderBaseを35Bのpython tokenでfinetuningしたモデル。
既存モデルよりも高性能と主張
MPT-7B, Databricks AI Research, 2023.05
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #OpenWeight #One-Line Notes Issue Date: 2023-05-06 Comment
新たなオープンソースLLM。
下記ツイートより引用:
・商用利用可能
・6万5000トークン使用可能
・7Bと比較的小さいモデルながら高性能
・日本語を扱え性能が高い
とのこと。
ChatGPTのLLMと比較すると、ざっと例を見た感じ質問応答としての能力はそこまで高くなさそうな印象。
finetuningしない限りはGPT3,GPT4で良さげ。
Towards Complex Reasoning: the Polaris of Large Language Models, Yao Fu, 2023.05
Paper/Blog Link My Issue
#Article #Tutorial #Pretraining #NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #Chain-of-Thought #Evaluation #Reasoning #mid-training #PostTraining Issue Date: 2023-05-04
HuggingChat, 2023
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #ChatGPT #One-Line Notes Issue Date: 2023-04-27 Comment
closedな世界で開発されるOpenAIのChatGPTに対して、Openなものが必要ということで、huggingfaceが出したchatシステム
公開はすでに終了している模様
More Design Patterns For Machine Learning Systems, 2023
Paper/Blog Link My Issue
#Article #Mindset #DesignPattern #One-Line Notes Issue Date: 2023-04-26 Comment
MLのデザインパターンが記述されている
Controlled experiments on the web: survey and practical guide, 2023
Paper/Blog Link My Issue
#Article #A/B Testing #Initial Impression Notes Issue Date: 2023-04-26 Comment
A/Bテストのベストプラクティスが書かれているらしい
Training a recommendation model with dynamic embeddings, TensorFlow Blog, 2023.04
Paper/Blog Link My Issue
#Article #RecommenderSystems #Tutorial #Embeddings #EfficiencyImprovement #Library #KeyPoint Notes Issue Date: 2023-04-25 Comment
dynamic embeddingを使った推薦システムの構築方法の解説
(理解が間違っているかもしれないが)推薦システムは典型的にはユーザとアイテムをベクトル表現し、関連度を測ることで推薦をしている。この枠組みをめっちゃスケールさせるととんでもない数のEmbeddingを保持することになり、メモリ上にEmbeddingテーブルを保持して置けなくなる。特にこれはonline machine learning(たとえばユーザのセッションがアイテムのsequenceで表現されたとき、そのsequenceを表すEmbeddingを計算し保持しておき、アイテムとの関連度を測ることで推薦するアイテムを決める、みたいなことが必要)では顕著である(この辺の理解が浅い)。しかし、ほとんどのEmbeddingはrarely seenなので、厳密なEmbeddingを保持しておくことに実用上の意味はなく、それらを単一のベクトルでできるとメモリ節約になって嬉しい(こういった処理をしてもtopNの推薦結果は変わらないと思われるので)。
これがdynamic embeddingのモチベであり、どうやってそれをTFで実装するか解説している。
Polars, 2023
Paper/Blog Link My Issue
#Article #Library #python #Coding #SoftwareEngineering #One-Line Notes Issue Date: 2023-01-23 Comment
pandasより100倍高速で複雑なクエリも見やすく書けてindexも存在しないのでバグも出にくいという優れものらしい
CodeGPT: The VSCode Extension with ChatGPT-Like Functionalities
Paper/Blog Link My Issue
#Article #Tools #GenerativeAI #Coding #SoftwareEngineering #One-Line Notes Issue Date: 2023-01-21 Comment
VSCodeの拡張で、//から始まるPromptをエディタ上で記載することで対応するコードをGPT3が生成してくれる模様。便利そう
推薦システムにおいて線形モデルがまだまだ有用な話, CyberAgent Developers Blog, 2022.12
Paper/Blog Link My Issue
#Article #RecommenderSystems #Tutorial Issue Date: 2022-12-19
Transformers Interpret, 2022
Paper/Blog Link My Issue
#Article #ComputerVision #MachineLearning #NLP #Library #Explanation #Transformer #One-Line Notes Issue Date: 2022-12-01 Comment
transformersのモデルをたった2行追加するだけで、explainableにするライブラリ
基本的にtextとvisionのclassificationをサポートしている模様
text classificationの場合、たとえばinput tokenの各トークンの分類に対する寄与度をoutputしてくれる。
deploy-API-to-GCP
Paper/Blog Link My Issue
#Article #Tools #Infrastructure #MLOps #Repository #API #SoftwareEngineering Issue Date: 2022-12-01 Comment
FlaskAPIを(Flaskでなくても良い)Google Cloud Run上で、TerraFormで定義したインフラ環境でデプロイするためのリポジトリ
0. リポジトリをclone
1. Flaskアプリ作成
2. FlaskアプリをDocker化
3. TerraFormのStateを保存するためのCloudStorage作成
4. TerraFormのコード作成
5. GitHub Actionでデプロイ(CI/CD)
5によってmainブランチに対するプルリクが本番環境にデプロイされる。
Cloud Runについて
https://dev.classmethod.jp/articles/gc-cloud-run/
MLOps: 機械学習における継続的デリバリーと自動化のパイプライン, Google
Paper/Blog Link My Issue
#Article #Infrastructure #MLOps #One-Line Notes #needs-revision Issue Date: 2022-04-27 Comment
機械学習(ML)システムの継続的インテグレーション(CI)、継続的デリバリー(CD)、継続的トレーニング(CT)の実装と自動化
MLOpsのレベルを0~2で表現しており、各レベルごとに何が達成されるべきかが図解されている。
Pythonのオブジェクト指向プログラミングを完全理解, kaitolucifer (Kaito), 2021
Paper/Blog Link My Issue
#Article #Tutorial #Coding #SoftwareEngineering #One-Line Notes Issue Date: 2021-11-25 Comment
オブジェクト指向の歴史的背景から、SOLID、GRASP等が詳細に解説されている。辞書的に参照するのが良いかも。
イラストで理解するSOLID原則, baby-degu, 2021
Paper/Blog Link My Issue
#Article #Tutorial #Coding #SoftwareEngineering #One-Line Notes Issue Date: 2021-11-25 Comment
オブジェクト指向におけるSOLID原則をイラストで解説した記事。直感的で分かりやすい。
バンディットアルゴリズムを使って広告最適化のシミュレーションをしてみたよ, ysekky, 2014
Paper/Blog Link My Issue
#Article #RecommenderSystems #Tutorial #CTRPrediction #One-Line Notes Issue Date: 2021-10-29 Comment
なぜクリック率を上げたいのかという説明が非常に参考になる
自然言語系AIサービスと著作権侵害, 柿沼太一, 2021
Paper/Blog Link My Issue
#Article #Tutorial #NLP #Legal Issue Date: 2021-10-26
【決定版】スーパーわかりやすい最適化アルゴリズム -損失関数からAdamとニュートン法-, omiita, 2019.12
Paper/Blog Link My Issue
#Article #NeuralNetwork #Tutorial #MachineLearning #NLP #Optimizer Issue Date: 2021-07-16
Seq2seqモデルのBeam Search Decoding (Pytorch), jonki, 2020.05
Paper/Blog Link My Issue
#Article #Tutorial #BeamSearch #One-Line Notes #Reading Reflections Issue Date: 2021-06-24 Comment
ビームサーチについて、コード付きで説明してくれており、大変わかりやすい。
heapqを使って実装している。また、ビームサーチをbatchに対して行う方法についても書いてある(ただ、一部に対してしかbatchでの処理は適用できていない)。
自分もバッチに対して効率的にビームサーチするにはどのように実装すれば良いのかよくわからないので、誰か教えて欲しい。
NVIDIA TRITON INFERENCE SERVER, 2021
Paper/Blog Link My Issue
#Article #MachineLearning #Infrastructure #MLOps #One-Line Notes Issue Date: 2021-06-18 Comment
Nvidiaのオープンソースのinference server
モデルのデプロイや管理、スケーリング等を良い感じにしてくれるフレームワーク?
pytorch_lightning tips
Paper/Blog Link My Issue
#Article #NeuralNetwork #Tools #Library #python Issue Date: 2021-06-12 Comment
PyTorch Lightning 2021 (for MLコンペ)
https://qiita.com/fam_taro/items/df8656a6c3b277f58781
ゼロから始めてオフライン強化学習とConservative Q-Learningを理解する, aiueola, 2021.05
Paper/Blog Link My Issue
#Article #Tutorial #ReinforcementLearning #Off-Policy Issue Date: 2021-06-07
ResNetからSkip Connectionを取り除く研究についてのサーベイ, 徳永拓之, LeapMind株式会社
Paper/Blog Link My Issue
#Article #Tutorial #KeyPoint Notes Issue Date: 2021-06-03 Comment
Skip Connectionは
- 推論時のメモリ消費量が増える
- 推論時に計算量の割に実際の計算が重たくなりがち(特にDNN専用アクセラレーターにおいてその傾向がありがち)
というデメリットがあり、SkipConnection無しで性能を出したいことから、様々な研究が行われている模様。
ResNetを学習し、それを教師としてPlainCNNを学習するResidual Distillationが決定版らしい(普通のDistillationでは最終層の類似度のみを用いるが、生徒ネットワークの中間層の出力を教師ネットワークに入れてからbackpropして勾配を得る)。
50層のPlainCNNで、ResNet50とほぼ同等のtop-1 accuracyを達成。
メモリ消費量は20%弱削減され、実行速度は20〜30%程度高速になる。
intel MKL
Paper/Blog Link My Issue
#Article #EfficiencyImprovement #Library #python #One-Line Notes Issue Date: 2021-06-03 Comment
intel CPUでpythonの数値計算を高速化するライブラリ(numpyとかはやくなるらしい; Anacondaだとデフォルトで入ってるとかなんとか)
EfficientNet解説, omiita (オミータ), 2019.10
Paper/Blog Link My Issue
#Article #NeuralNetwork #Tutorial #ComputerVision #EfficiencyImprovement #ImageClassification #One-Line Notes Issue Date: 2021-05-24 Comment
既存画像認識モデルの構造は変化させず、広さ、深さ、解像度を複合スケーリングすることで、従来よりも少ないパラメータ数、かつ学習速度でSoTAを達成。広さ、深さ、解像度はそれぞれ性能に互いに影響しあっており、従来のように別々にスケーリングするのではなく、3つのバランスをとりながらスケーリングする。スケーリングする際は、結果的にはそれぞれをある値で定数倍すれば良く、そのある値は最大メモリや最大FLOPS数以下(およびFLOPSが2のΦ乗で増加するような)といった制約下でAccuracyが最大化される値をグリッドサーチで見つける(らしい。ざっくりとした理解)。
転移学習しても多くのタスクでSoTA達成した。
GLUE - 英語圏における自然言語処理の標準ベンチマーク, npaka, 2020.09
Paper/Blog Link My Issue
#Article #Tutorial #NLP #Dataset #Evaluation #Initial Impression Notes Issue Date: 2021-05-19 Comment
各タスクごとにサンプルとその説明が付与されており、ぱっと見でどんなタスクかすぐ分かる
Open Bandit Dataset, ZOZO RESEARCH, 2020
Paper/Blog Link My Issue
#Article #RecommenderSystems #Dataset Issue Date: 2020-08-29 Comment
Open Bandit pipelineも参照
資料:
https://speakerdeck.com/usaito/off-policy-evaluationfalseji-chu-toopen-bandit-dataset-and-pipelinefalseshao-jie
Collaborative Metric Learningまとめ, guglilac, 2020.01
Paper/Blog Link My Issue
#Article #RecommenderSystems #Tutorial #CollaborativeFiltering #ContrastiveLearning #One-Line Notes Issue Date: 2020-07-30 Comment
userのembeddingに対し、このuserと共起した(購入やクリックされた)itemを近くに、共起していないitemを遠くに埋め込むような学習方法
BERT 日本語Pre-trained Model, NICT, 2020.03
Paper/Blog Link My Issue
#Article #NeuralNetwork #Tools #NLP #Dataset #LanguageModel #Library #Japanese #Encoder #One-Line Notes Issue Date: 2020-03-13 Comment
NICTが公開。既に公開されているBERTモデルとのベンチマークデータでの性能比較も行なっており、その他の公開済みBERTモデルをoutperformしている。
Key trends from NeurIPS 2019, Chip Huyen, 2019.12
Paper/Blog Link My Issue
#Article #Tutorial #MachineLearning #NeurIPS Issue Date: 2020-01-16
10 ML & NLP Research Highlights of 2019, Sebastian Ruder, 2020.01
Paper/Blog Link My Issue
#Article #Survey #MachineLearning #NLP Issue Date: 2020-01-13
