Realtime
[Paper Note] minWM: A Full-Stack Open-Source Framework for Real-Time Interactive Video World Models, Min Zhao+, arXiv'26, 2026.05
Paper/Blog Link My Issue
#ComputerVision #DiffusionModel #VideoGeneration/Understandings #WorldModels #4D (Video) #TextToVideoGeneration #Initial Impression Notes Issue Date: 2026-05-31 GPT Summary- リアルタイムのインタラクティブなビデオワールドモデル構築のため、フルスタックのオープンソースフレームワークminWMを提案。双方向ビデオディフュージョンモデルをカメラ制御可能な少数ステップ自回帰モデルへ変換し、低遅延のロールアウトを実現。モジュール化されており、異なるアーキテクチャに対応。実用的なアブレーションも提供し、再現性や拡張性を目指す。 Comment
元ポスト:
Text-to-Videoの基盤モデルを、actionによって条件付けされて生成をするvideo world modelへ変換する
[Paper Note] MiniCPM-o 4.5: Towards Real-Time Full-Duplex Omni-Modal Interaction, Junbo Cui+, arXiv'26, 2026.04
Paper/Blog Link My Issue
#ComputerVision #NLP #SpeechProcessing #Speech #SmallModel #OpenWeight #VisionLanguageModel #2D (Image) #4D (Video) #Omni #audio #text #SpeechToSpeech Issue Date: 2026-05-12 GPT Summary- MiniCPM-o 4.5は、リアルタイムの全二重オムニモーダル対話を実現する最新の進展であり、視覚・聴覚・発話を同時に処理可能。Omni-Flowを用いた統一的なフレームワークにより、知覚と応答を融合させ、能動的な行動を促進する。90億パラメータを持ち、Gemini 2.5 Flashに近い性能を発揮し、エッジデバイス上でもリアルタイム処理が可能となる。 Comment
HF: https://huggingface.co/openbmb/MiniCPM-o-4_5
元ポスト:
[Paper Note] KAME: Tandem Architecture for Enhancing Knowledge in Real-Time Speech-to-Speech Conversational AI, So Kuroki+, ICASSP'26, 2025.09
Paper/Blog Link My Issue
#NLP #LanguageModel #Transformer #SpeechProcessing #read-later #Selected Papers/Blogs #One-Line Notes #ICASSP #Author Thread-Post #SpeechToSpeech Issue Date: 2026-05-01 GPT Summary- 音声-音声モデルは低遅延で自然な応答を生成するものの、知識や意味理解に欠ける。一方、ASRとLLMを組み合わせたカスケード型システムは知識表現に優れるが、遅延が大きくなる。そこで本研究は、即時応答を実現する新たなハイブリッドアーキテクチャを提案。ユーザーの音声をS2Sトランスフォーマーで処理しつつ、クエリをLLMに並行伝送。これにより、遅延を増加させずに豊富な知識を応答に組み込むことが可能となる。MT-Benchベンチマークを用いた評価により、提案システムはS2Sモデルを大幅に上回りつつ、遅延は同等であることが示された。 Comment
元ポスト:
HF: https://huggingface.co/SakanaAI/kame
SpeechToSpeechのエンコーダ・デコーダモデルの裏で同時並行してLLMを走らせ、随時生成されるOracle Streamを考慮してデコードすることで、latencyと知識・推論性能を両立する。
著者ポスト:
[Paper Note] Realtime-VLA V2: Learning to Run VLAs Fast, Smooth, and Accurate, Chen Yang+, arXiv'26, 2026.03
Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #Robotics #VisionLanguageActionModel #EmbodiedAI Issue Date: 2026-04-05 GPT Summary- VLAモデルを実世界のロボットタスクに展開する際の実行速度が重要であり、以前の研究ではGPUでの計算高速化方法が示されましたが、実際のロボットへの展開は未解決でした。本報告では、VLA駆動ロボットをエンドツーエンドで高速に動作させるための技術セットを提案し、精度と器用さを両立させる手法を説明します。この技術スタックは、校正、計画と制御、学習ベースの最適実行速度特定に広がり、ロボットが人間の操作に匹敵する速度で動作することを示しています。 Comment
元ポスト:
[Paper Note] DreamDojo: A Generalist Robot World Model from Large-Scale Human Videos, Shenyuan Gao+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#ComputerVision #Pretraining #DiffusionModel #OpenWeight #Robotics #WorldModels #4D (Video) #Physics #EgocentricView #Author Thread-Post Issue Date: 2026-02-09 GPT Summary- DreamDojoは、エゴセントリックな人間のビデオから学習した世界モデルで、巧妙なロボットタスクのシミュレーションを可能にします。44,000時間のデータを使用し、多様なシナリオとオブジェクトをカバーしており、アクションラベルの不足を連続的な潜在アクションで解決。物理理解とアクション制御能力を向上させるポストトレーニング後、10.81 FPSでのリアルタイム処理を実現。これにより、生成的世界モデルを基にした新しいアプリケーションを実現し、オープンワールドでのタスクシミュレーションの可能性を示します。 Comment
pj page: https://dreamdojo-world.github.io/
元ポスト:
著者ポスト:
著者ポスト:
解説:
[Paper Note] AutoNeural: Co-Designing Vision-Language Models for NPU Inference, Wei Chen+, arXiv'25, 2025.12
Paper/Blog Link My Issue
#ComputerVision #NLP #SmallModel #OpenWeight #Selected Papers/Blogs #3D Reconstruction #VisionLanguageModel Issue Date: 2025-12-04 GPT Summary- AutoNeuralは、NPU向けに最適化されたVLMアーキテクチャで、量子化の脆弱性とI/Oバウンドな注意メカニズムの問題を解決。MobileNetV5スタイルのバックボーンを採用し、量子化誤差を最大7倍削減、エンドツーエンドのレイテンシを14倍短縮。実世界の自動車ケーススタディでリアルタイム性能を実証し、NPU制約に特化したモデル設計の重要性を示した。 Comment
pj page: https://nexa.ai/solution/intelligent-cockpit
HF: https://huggingface.co/NexaAI/AutoNeural
元ポスト:
[Paper Note] RF-DETR: Neural Architecture Search for Real-Time Detection Transformers, Isaac Robinson+, arXiv'25, 2025.11
Paper/Blog Link My Issue
#ComputerVision #Transformer #NeuralArchitectureSearch #Encoder-Decoder #ObjectDetection Issue Date: 2025-11-14 GPT Summary- RF-DETRは、オープンボキャブラリ検出器の一般化問題を解決するために導入された軽量の専門検出トランスフォーマーであり、重み共有ニューラルアーキテクチャサーチ(NAS)を用いて精度とレイテンシのトレードオフを評価します。RF-DETRは、COCOおよびRoboflow100-VLで従来の手法を大幅に上回り、特にRF-DETR(2x-large)はCOCOで60 APを超えた初のリアルタイム検出器です。 Comment
元ポスト:
[Paper Note] Lumine: An Open Recipe for Building Generalist Agents in 3D Open Worlds, Weihao Tan+, arXiv'25, 2025.11
Paper/Blog Link My Issue
#ComputerVision #AIAgents #Generalization #VisionLanguageModel #3D (Scene) #Game Issue Date: 2025-11-13 GPT Summary- Lumineは、3Dオープンワールド環境で複雑なミッションをリアルタイムで完了できる一般的なエージェントのためのオープンレシピです。人間のようなインタラクションを採用し、視覚と言語のモデルを統合して知覚、推論、行動を実現。Genshin Impactで訓練されたLumineは、自然言語の指示に従い、幅広いタスクを効率的に実行します。また、ファインチューニングなしで他のゲームでも高いパフォーマンスを示し、オープンエンドな環境における一般的なエージェントへの進展を示しています。 Comment
pj page:
https://www.lumine-ai.org/
> 1731 hours of human gameplay for pre-training to master action primitives;
> 200 hours of instruction following data to ground control in language;
> 15 hours of reasoning data to enable adaptive thinking.
元ポスト:
Advancing voice intelligence with new models in the API, OpenAI, 2026.05
Paper/Blog Link My Issue
#Article #NLP #SpeechProcessing #Reasoning #MultiLingual #Proprietary #TTS #Author Thread-Post #SpeechToSpeech Issue Date: 2026-05-10 Comment
元ポスト:
GPT-Realtime-2
Flipbook is an infinite visual browser generated entirely on demand in real time, Shah+, 2026.04
Paper/Blog Link My Issue
#Article #ComputerVision #Blog #VideoGeneration/Understandings #interactive #Initial Impression Notes #GUI Issue Date: 2026-04-25 Comment
元ポスト:
画面上のピクセルを全てVideo Generationによってinteractiveに描画するGUIのデモのようである
Matrix-Game 3.0: Real-Time and Streaming Interactive World Model with Long-Horizon Memory, Skywork AI, 2026.04
Paper/Blog Link My Issue
#Article #ComputerVision #Transformer #SyntheticData #DiffusionModel #OpenWeight #VideoGeneration/Understandings #WorldModels #interactive #Game #4D (Video) #LongHorizon #Initial Impression Notes Issue Date: 2026-04-02 Comment
元ポスト:
Unreal Engineで合成されたデータに基づいて学習されたDiTベースのWorld Modelらしい。
Acknowleagementから察するに、Wan2.2がベースモデルで、self-forcingが学習に用いられている。
- Wan2.2, Alibaba Wan, 2025.07
- [Paper Note] Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion, Xun Huang+, NeurIPS'25
また、action control moduleをアーキテクチャに導入することで、汎用的な動画生成モデルにキーボード、マウス等のアクションによるコントロールを実現している模様。
- [Paper Note] GameFactory: Creating New Games with Generative Interactive Videos, Jiwen Yu+, arXiv'25, 2025.01
デコードの高速化には量子化を利用しているとのこと。
リアルタイムRLでComposerを改善する, Cursor, 2026.03
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #ReinforcementLearning #Blog #Coding #SoftwareEngineering #KeyPoint Notes Issue Date: 2026-03-28 Comment
実際の推論トークンとユーザの応答を集約して報酬を作成しモデルの改善に使うリアルタイムRLによって5時間ごとにComposerチェックポイントをアップデートしデプロイする。
Reward Hackingを防ぐことはこのようなリアルタイムRLではより一層重要でそのための報酬設計として工夫した点が2つ挙げられている。
- 元々はツール呼び出しが無効だった例を除外するようにして報酬を設計していたが、モデルはこれにより無効なツールを呼び出せば負の報酬を得ないことを学び意図的に無効なツールを呼び出すことを学習した。これを防ぐために、ツール呼び出しに失敗した場合に明確に負の報酬を与えるように変更
- モデルが実施した編集について、自分がコードを編集しなければペナルティを受けないことを学習し、難しい編集については質問をすることで先送りする挙動をRewardHackingの結果学習した。質問については適切なタイミングで実施する必要があるため、報酬を修正した
といった話が書かれている。
現在は比較的短いタスクを実行してユーザからフィードバックを受け取れるが、今後はlong horizonなタスクを実行することが予想され、その場合
- ユーザのフィールドバックの頻度は減り
- 成果物全体に対するフィードバックを返すようになる
という異なる性質のデータを扱わなければならないのでそれに向けて改善を進めるとのこと。
Voxtral transcribes at the speed of sound, Mistral AI, 2026.02
Paper/Blog Link My Issue
#Article #SpeechProcessing #Blog #MultiLingual #OpenWeight #Proprietary #AutomaticSpeechRecognition(ASR) #Transcript Issue Date: 2026-02-05 Comment
元ポスト:
Voxtral Mini Transcribe V2はproprietaryモデルでAPI利用のみ、Vostraal RealtimeはOpenWeightで公開
mistralai/Voxtral-Mini-4B-Realtime-2602:
https://huggingface.co/mistralai/Voxtral-Mini-4B-Realtime-2602
Vostral Mini Transcrive V2に対するVoxtral Realtimeの性能の比較。Voxtral Realtimeは遅延を調整可能なようで、遅延が大きければ大きいほど高い性能が出るが、リアルタイムに近づけば近づくほど性能はその分劣化する。
Waypoint-1: Real-time Interactive Video Diffusion from Overworld, Overworld, 2026.01
Paper/Blog Link My Issue
#Article #ComputerVision #Controllable #NLP #Transformer #MultiModal #DiffusionModel #OpenWeight #WorldModels #interactive #4D (Video) #One-Line Notes #RectifiedFlow Issue Date: 2026-01-22 Comment
blog:
https://over.world/blog/the-path-to-real-time-worlds-and-why-it-matters
pj page:
https://over.world/
元ポスト:
リアルタイムにzero latencyでマウス(カメラも自由に動かせる)、キーボード、テキストでinteraction可能なworld model
Scaling Real-Time Voice Agents with Cache-Aware Streaming ASR, Nvidia, 2026.01
Paper/Blog Link My Issue
#Article #SpeechProcessing #Blog #AutomaticSpeechRecognition(ASR) #One-Line Notes Issue Date: 2026-01-07 Comment
元ポスト:
過去のStreaming形式のASRではwindowを定義しwindow中のcontextを逐次計算するアーキテクチャだったが本質的に効率が悪いのでアーキテクチャを改善。エンコーダの表現を内部でキャッシュし新たなデータが来たらその差分に基づいて内部のキャッシュをアップデートする方式によって大幅にlatencyを改善している(エンコーダのconvのdownsamplingも従来の4xから8xにしているとのこと)、という感じらしい。
chatterbox-turbo, ResembleAI, 2025.12
Paper/Blog Link My Issue
#Article #SpeechProcessing #OpenWeight #TTS #One-Line Notes Issue Date: 2025-12-17 Comment
元ポスト:
realtime(最初の発話まで<150ms)のlatencyが実現されたOpenWeightなTTSで、multilingualモデルは日本語にも対応している模様。テクニカルレポートがないのでよくわからないが、githubがあるのでソースコードを見ればアーキテクチャがわかりそうではある。たとえばVoiceEncoderには(おそらく速度を重視するために)LSTMが利用されていた。
github:
https://github.com/resemble-ai/chatterbox
[Paper Note] Alpamayo-R1: Bridging Reasoning and Action Prediction for Generalizable Autonomous Driving in the Long Tail, Pavone+, Nvidia, 2025.10
Paper/Blog Link My Issue
#Article #Dataset #ReinforcementLearning #Reasoning #SmallModel #OpenWeight #Robotics #VisionLanguageActionModel #AutonomousVehicle Issue Date: 2025-12-06 GPT Summary- AR1は因果連鎖推論と軌道計画を統合した視覚–言語–行動モデルであり、自律運転の意思決定を強化します。主な革新は、因果連鎖データセットの構築、モジュラーVLAアーキテクチャの導入、強化学習を用いた多段階トレーニング戦略です。評価結果では、AR1は計画精度を最大12%向上させ、推論の質を45%改善しました。リアルタイムパフォーマンスも確認され、レベル4の自律運転に向けた実用的な道筋を示しています。 Comment
HF: https://huggingface.co/nvidia/Alpamayo-R1-10B
元ポスト:
