interactiveに関する論文・技術記事メモの一覧

interactive

[Paper Note] Infinite Worlds with Versatile Interactions, Zelin Gao+, arXiv'26, 2026.07

Paper/Blog Link My Issue
#ComputerVision #OpenWeight #Selected Papers/Blogs #WorldModels #3D (Video) #Realtime #Author Thread-Post Issue Date: 2026-07-19 GPT Summary- LingBot-World 2.0を紹介。出力品質を保ちながら無限に広がる対話の時間的範囲を実現し、リアルタイム応答を可能にする。多様なインタラクティブ要素を導入し、エージェント機能の統合にも先駆ける。複数プレイヤーが同時に参加できるインターフェースを開発し、14Bモデルと1.3Bモデルを組み合わせてGPUデプロイを簡素化。 Comment

pj page: https://technology.robbyant.com/lingbot-world-v2

元ポスト:

Loading…

公式:

Loading…

HF: https://huggingface.co/collections/robbyant/lingbot-world-v2

[Paper Note] Video = World + Event Stream, Lianghua Huang+, arXiv'26, 2026.07

Paper/Blog Link My Issue
#ComputerVision #VideoGeneration/Understandings #WorldModels #Realtime Issue Date: 2026-07-18 GPT Summary- Wan-Streamer v0.3は、ネイティブ・ストリーミング相互作用モデルを整理ビューの下で再定義したもので、ビデオの持続的文脈（世界）と時間とともに変化する要素（イベントストリーム）を扱います。これにより、リアルタイムでの環境変化や反応を予測する能力が生まれ、全二重音声映像相互作用に特化します。モデルは視覚・言語・行動を統合し、マルチモーダルなユーザー入力を言語形式の出力と行動に変換します。また、性能としては、動画の解像度やストリーミング単位を維持しつつ、応答時の遅延を最適化しています。 Comment

元ポスト:

Loading…

pj page: https://wan-streamer.com/v0.3/

[Paper Note] Wan-Streamer v0.1: End-to-end Real-time Interactive Foundation Models, Lianghua Huang+, arXiv'26, 2026.06

Paper/Blog Link My Issue
#FoundationModel #3D (Video) #audio #text #Realtime Issue Date: 2026-07-05 GPT Summary- Wan-Streamerは、リアルタイム・低遅延の音声-映像インタラクションのために設計されたエンドツーエンドのインタラクティブ基盤モデルです。言語、音声、映像を1つのトランスフォーマー内でシームレスにモデル化し、視覚・音声・テキストのトークンを相互に挿入して表現します。従来のカスケードモデルに依存せず、知覚や推論などの要素を統一モデル内で共同に学習することで、遅延とエラーを低減しています。また、因果エンコーダやマルチモーダルトークン・スケジューリングを取り入れ、最短160 msのストリーミングユニットを実現。350 msのネットワーク遅延と組み合わせることで、約550 msの総インタラクション遅延を達成し、サブ秒の全二重通信をサポートしています。 Comment

pj page: https://wan-streamer.com/

元ポスト:

Loading…

[Paper Note] Multi-Faceted Interactivity Alignment in Full-Duplex Speech Models, Atsumoto Ohashi+, arXiv'26, 2026.06

Paper/Blog Link My Issue
#ReinforcementLearning #PostTraining #read-later #Realtime #Author Thread-Post #SpeechToSpeech Issue Date: 2026-06-11 GPT Summary- 全二重音声対話モデルのインタラクティブ性を向上させるため、RLを使用したポスト訓練後のアライメント手法を提案。ポーズ処理、ターン取り、バックチャネル、ユーザーの中断にフォーカスし、人間の会話データから抽出した音声セグメントで特有の報酬関数を最適化。LLMベースの報酬を加えることで応答品質を保持。MoshiとPersonaPlexモデルでの評価により、一貫したインタラクティブ性の改善を確認。 Comment

元ポスト:

Loading…

[Paper Note] WorldMemArena: Evaluating Multimodal Agent Memory Through Action-World Interaction, Chengzhi Liu+, arXiv'26, 2026.05

Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #Evaluation #MultiModal #Selected Papers/Blogs #memory #KeyPoint Notes #Reading Reflections #Author Thread-Post #AgentHarness Issue Date: 2026-06-03 GPT Summary- マルチモーダル大規模言語モデルが長期エージェントとして機能するためには、記憶が進化する世界に適応し、適切な証拠を提示する必要がある。しかし、従来のベンチマークは静的なリコールに依存しており、記憶の生成における失敗を特定できない。これに対して、我々は記憶を「アクション-ワールド・インタラクション・ループ」として定式化し、WorldMemArenaを実装。ここでは、400件のマルチセッション・マルチモーダルタスクを通じて、記憶の診断が可能となる。結果として、記憶書き込みは必ずしも性能向上に繋がらず、視覚的証拠の活用が依然として困難であることが示された。また、エージェントの実行はドメインを跨いで不安定で、コストと信頼性のトレードオフが浮き彫りになった。 Comment

元ポスト:

Loading…

著者ポスト2:

Loading…

以下著者ポストの要約

既存のメモリに関するベンチマークは、「静的な環境」において過去のコンテキストから情報を「復元」できるかをテストしているが、それを超えて、
- Lifelong Evolution（動的）: ユーザとプロジェクトの状態が変化する世界において、
- Agentic Execution（書き込み・維持・検索・活用）: エージェントが観測結果、アクション、ツール実行結果、環境の変化から再利用可能なメモリを構築できるか

をカバーするベンチマークを構築。ベンチマークは461個の複数セッション・マルチモーダルなタスクが含まれ24k QAペア・15kの画像・スクリーンショット、高速な評価のための150サンプルによるサブセットによって構成される。

評価では、
- long-contextのエージェントのcontextに入れ込むメモリ
- 人間がデザインしたメモリ（RAG, メモリパイプライン等）、
- agent harnessがメモリ管理をするタイプのagent

の3種類を評価。

- Takeaway
- メモリへの書き込みの品質が高くても、必ずしもエージェントがうまく活用できるとは限らない
- 現在の手法ではマルチモーダルな情報に対するメモリはまだ困難で、視覚的/空間的/手続き的な情報を失う
- 重要な情報がアクション、フィードバック、スクリーンショット、状態の更新等に分散している場合にメモリは劣化し、これは現在の多くのシステムが整理されたテキストベースの履歴を扱うことに長けている一方で、実際のinteractionのtrajectoryから情報を抽出・更新・再利用することには課題があることを示唆
- agent harnessに基づくメモリはinteraction中に自動的にメモリが記録・抽出・推敲されるため柔軟性が高く有望なアプローチだが、harness designに性能が依存するため、性能が不安定

評価結果を見ると、一言にメモリと言っても多様な観点からmetricsが定義でき、手法によって性能に大きな開きがある点や実用的な観点の実験設定となっており興味深い。様々な要素が関わってくるため、一概にこの手法が良いというのもあまり言えなさそうに見える。あとなんやかんやRAGが全体的に性能が良さそうに見えるが、結果の解釈が難しく、何らかの単一の尺度などに押し込めたりしないだろうか。

pj page: https://worldmemarena-mem.github.io/

[Paper Note] Gamma-World: Generative Multi-Agent World Modeling Beyond Two Players, Fangfu Liu+, arXiv'26, 2026.05

Paper/Blog Link My Issue
#Multi #ComputerVision #Transformer #DiffusionModel #VideoGeneration/Understandings #WorldModels #Initial Impression Notes Issue Date: 2026-05-31 GPT Summary- マルチエージェント環境におけるインタラクティブなビデオ生成のために、私たちの生成的マルチエージェントワールドモデルを提案。エージェント間の順列対称性を保ちながら、異なる位相で独立に制御可能であるSimplex Rotaryエージェントエンコーディングを用い、Sparse Hub Attentionでアテンション計算を効率化。トレーニングなしで2人から4人への一般化が可能で、映像の忠実度やアクション制御、一貫性を向上。 Comment

元ポスト:

Loading…

pj page: https://research.nvidia.com/labs/sil/projects/gamma-world/

複数のエージェント環境における（エージェントのaction, 前回アクションからのobservationが与えられた上で、次の世界の状態を予測し画像で出力するという文脈での）World Model

[Paper Note] Interactive Evaluation Requires a Design Science, Keyang Xuan+, arXiv'26, 2026.05

Paper/Blog Link My Issue
#NLP #LanguageModel #Evaluation #Author Thread-Post Issue Date: 2026-05-21 GPT Summary- インタラクティブな評価の重要性を強調し、従来の応答中心のベンチマークからの変革を提案。評価を「証拠から判断へ」とする自律的な写像として定義し、インタラクションによって生成される軌跡を評価する必要性を示す。設計原理や報告基準を導出し、評価課題の再発を分析する二軸分類法を提案。 Comment

元ポスト:

Loading…

[Paper Note] WorldMark: A Unified Benchmark Suite for Interactive Video World Models, Xiaojie Xu+, arXiv'26, 2026.04

Paper/Blog Link My Issue
#ComputerVision #Evaluation #read-later #Selected Papers/Blogs #WorldModels Issue Date: 2026-04-26 GPT Summary- WorldMarkは、インタラクティブなImage-to-Videoワールドモデルのための初の共通ベンチマークを提供。これにより、6つの主要モデルを同一条件下で比較可能にするためのアクションマッピング、500件の評価ケースを含むテストスイート、およびモジュール式の評価ツールキットを提供。すべてのデータとコードは公開され、オンラインプラットフォームでのリアルタイム対戦も可能。 Comment

pj page: https://alaya-studio.github.io/WorldMark/

元ポスト:

Loading…

interactiveなWorldModelsを統一的に評価できる評価スイートなようなので、こういった研究はこれまでにないような気がしており、重要研究に感じる。

[Paper Note] ArtHOI: Articulated Human-Object Interaction Synthesis by 4D Reconstruction from Video Priors, Zihao Huang+, arXiv'26, 2026.03

Paper/Blog Link My Issue
#ComputerVision #4D Reconstruction #Reference Collection #Author Thread-Post Issue Date: 2026-03-06 GPT Summary- ArtHOIは、単眼動画からの情報を用いて4Dの関節付き人間-物体相互作用を合成する初のゼロショットフレームワークである。このアプローチでは、動画の逆レンダリングを通じて接触や関節運動を自然に満たす物理的に妥当な4Dシーンを再構成する。提案手法は、光学フローを基に動的および静的領域を分離し、安定した物体のアーティキュレーションを回復した後、条件として人間の運動を生成する。また、多様なシーンにおいて、従来手法を上回る精度で相互作用を実現する。 Comment

pj page: https://arthoi.github.io/

元ポスト:

Loading…

著者ポスト:

Loading…

ポイント解説:

Loading…

著者ポスト:

Loading…

[Paper Note] Generated Reality: Human-centric World Simulation using Interactive Video Generation with Hand and Camera Control, Linxi Xie+, arXiv'26, 2026.02

Paper/Blog Link My Issue
#ComputerVision #VideoGeneration/Understandings #3D (Video) Issue Date: 2026-02-24 GPT Summary- 人間中心のビデオワールドモデルを提案し、追跡された頭部および手の姿勢に基づく生成モデルを導入。既存の条件付け戦略を改善し、巧妙な手と物体の相互作用を可能にする。双方向のビデオ拡散モデルを訓練し、自分視点の仮想環境を作成。評価実験により、タスクパフォーマンスの向上と高い知覚的制御感を示す。 Comment

pj page: https://codeysun.github.io/generated-reality/

[Paper Note] VisGym: Diverse, Customizable, Scalable Environments for Multimodal Agents, Zirui Wang+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#ComputerVision #NLP #Dataset #Evaluation #LongSequence #VisionLanguageModel #Initial Impression Notes Issue Date: 2026-02-03 GPT Summary- 現代の視覚-言語モデル（VLM）は、複雑な視覚的相互作用において効果的に機能しておらず、特に長期的な知覚や記憶の統合に課題があります。これに対処するため、「VisGym」という17の環境を導入し、記号パズルやナビゲーションを含む多様な設定でモデルを評価・訓練します。実験では、最前線のモデルがインタラクティブな場面で苦戦していることが示され、長い文脈の活用に制限があることが明らかになりました。しかし、目標観察やテキストフィードバックによる微調整は、モデルの視覚的意思決定を改善する効果が確認されました。 Comment

pj page: https://visgym.github.io/

元ポスト:

Loading…

このベンチマーク上のSoTAであるGemini 3 Proでも平均Acc.50%に到達しないinteractiveなVQAタスク群な模様

[Paper Note] Advancing Open-source World Models, Robbyant Team+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#ComputerVision #NLP #DiffusionModel #OpenWeight #WorldModels Issue Date: 2026-01-30 GPT Summary- LingBot-Worldは、リアルで多様な環境を持つオープンソースの世界シミュレーターで、高忠実度と堅牢なダイナミクスを提供。文脈の一貫性を保つ「長期記憶」機能や、1秒未満のレイテンシーでのリアルタイム生成を実現。オープンソースの技術提供により、コンテンツ制作やゲーム、ロボット学習に貢献することを目指す。 Comment

pj page: https://technology.robbyant.com/lingbot-world

元ポスト:

Loading…

[Paper Note] NeuralOS: Towards Simulating Operating Systems via Neural Generative Models, Luke Rivard+, arXiv'25, 2025.07

Paper/Blog Link My Issue
#ComputerVision #DiffusionModel #ICLR #read-later #Selected Papers/Blogs #WorldModels #RecurrentModels #GUI Issue Date: 2026-01-17 GPT Summary- NeuralOSは、ユーザーの入力に基づいてGUIをシミュレーションするニューラルフレームワークであり、RNNと拡散ベースのレンダラーを組み合わせています。Ubuntu XFCEの録画データを用いた訓練により、リアルなGUIシーケンスをレンダリングし、状態遷移を信頼性高く予測可能であることが実証されました。キーボードインタラクションのモデル化は依然として難しいものの、NeuralOSは将来のヒューマンコンピュータインタラクションのための適応的なインターフェイスの一歩を示します。 Comment

元ポスト:

Loading…

openreview: https://openreview.net/forum?id=TE2Vu7WJki

[Paper Note] Training Proactive and Personalized LLM Agents, Weiwei Sun+, arXiv'25, 2025.11

Paper/Blog Link My Issue
#NLP #LanguageModel #UserBased #AIAgents #SoftwareEngineering #read-later #Selected Papers/Blogs Issue Date: 2025-11-06 GPT Summary- 効果的なAIエージェントには、生産性、積極性、パーソナライズの3つの次元を最適化する必要があると主張。LLMベースのユーザーシミュレーター「UserVille」を導入し、PPPというマルチオブジェクティブ強化学習アプローチを提案。実験では、PPPで訓練されたエージェントがGPT-5に対して平均21.6ポイントの改善を達成し、ユーザーの好みに適応しながらタスク成功を向上させる能力を示した。 Comment

AI Agentにおいてユーザとのinteractionを重視し協働することを重視するようなRLをする模様。興味深い。

元ポスト:

Loading…

[Paper Note] LongLive: Real-time Interactive Long Video Generation, Shuai Yang+, arXiv'25, 2025.09

Paper/Blog Link My Issue
#ComputerVision #LongSequence #AttentionSinks #read-later #Selected Papers/Blogs #VideoGeneration/Understandings Issue Date: 2025-10-17 GPT Summary- LongLiveは、リアルタイムでインタラクティブな長編動画生成のためのフレームレベルの自己回帰フレームワークを提案。因果的注意ARモデルを採用し、KV再キャッシュメカニズムを統合することで、視覚的一貫性と意味的整合性を保ちながら効率的な生成を実現。1.3Bパラメータのモデルを32 GPU日でファインチューニングし、単一のNVIDIA H100で20.7 FPSを維持。最大240秒の動画生成をサポートし、INT8量子化推論も対応。 Comment

元ポスト:

Loading…

pj page: https://nvlabs.github.io/LongLive/

[Paper Note] Interactive Recommendation Agent with Active User Commands, Jiakai Tang+, arXiv'25, 2025.09

Paper/Blog Link My Issue
#RecommenderSystems #LanguageModel #read-later #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-09-29 GPT Summary- 従来のレコメンダーシステムは受動的なフィードバックに依存し、ユーザーの意図を捉えられないため、嗜好モデルの構築が困難である。これに対処するため、インタラクティブレコメンデーションフィード（IRF）を導入し、自然言語コマンドによる能動的な制御を可能にする。RecBotという二重エージェントアーキテクチャを開発し、ユーザーの嗜好を構造化し、ポリシー調整を行う。シミュレーション強化知識蒸留を用いて効率的なパフォーマンスを実現し、実験によりユーザー満足度とビジネス成果の改善を示した。 Comment

元ポスト:

Loading…

ABテストを実施しているようなので信ぴょう性高め

[Paper Note] Hunyuan-GameCraft: High-dynamic Interactive Game Video Generation with Hybrid History Condition, Jiaqi Li+, arXiv'25

Paper/Blog Link My Issue
#ComputerVision #VideoGeneration/Understandings #Game Issue Date: 2025-08-14 GPT Summary- 「Hunyuan-GameCraft」という新しいフレームワークを提案し、ゲーム環境における高ダイナミックインタラクティブ動画生成を実現。キーボードとマウスの入力を統合し、動画シーケンスを自己回帰的に拡張することで、アクション制御と一貫性を向上。大規模データセットでトレーニングし、視覚的忠実性とリアリズムを強化。実験により、既存モデルを大幅に上回る性能を示した。 Comment

元ポスト:

Loading…

単体の画像と、prompt、マウス・キーボード入力に基づいてinteractiveに動画を合成する。軽量なGPUでも動作するように、高品質な合成データによってモデルを蒸留し軽量なモデルを利用したりもしている模様。そのうち家庭のゲーミングPCでこういったモデルでゲームをする日が来るのだろうか。

アーキテクチャに使われている技術:
- [Paper Note] DiT: Self-supervised Pre-training for Document Image Transformer, Junlong Li+, ACMMM'22
- Learning Transferable Visual Models From Natural Language Supervision, Radford+, OpenAI, ICML'21

[Paper Note] Diffusion Models Are Real-Time Game Engines, Dani Valevski+, ICLR'25, 2024.08

Paper/Blog Link My Issue
#NeuralNetwork #ComputerVision #DiffusionModel #ICLR #read-later #Selected Papers/Blogs #WorldModels #Initial Impression Notes Issue Date: 2024-09-01 GPT Summary- GameNGenは、初の完全にニューラルモデルで動作するゲームエンジンであり、DOOMを用いて訓練され、インタラクティブな新しい軌道を生成する能力を持つ。毎秒20フレームで動作し、9.4のPSNRを達成。評価者は自己回帰生成後もゲームクリップをわずかに識別可能である。GameNGenは、強化学習エージェントによるトレーニングと、次フレーム生成のための拡散モデルの2段階で訓練され、安定した生成を実現する。 Comment

Diffusion Modelでゲーム映像を生成する取り組みらしい。ゲームのenvironmentに対して、ユーザのActionとframeの系列をエピソードとみなして生成するっぽい？

project pageにデモがのっている

https://gamengen.github.io/

openreview: https://openreview.net/forum?id=P8pqeEkn1H

[Paper Note] Joint Optimization of User-desired Content in Multi-document Summaries by Learning from User Feedback, P.V.S+, ACL'17, 2017.08

Paper/Blog Link My Issue
#PersonalizedDocumentSummarization #DocumentSummarization #InteractivePersonalizedSummarization #NLP #IntegerLinearProgramming (ILP) #Personalization #ACL #In-Depth Notes Issue Date: 2017-12-28 GPT Summary- ユーザーフィードバックを活用した抽出的マルチドキュメント要約システムを提案。インタラクティブにフィードバックを取得し、ILPフレームワークを用いて要約の質を向上。最小限の反復で高品質な要約を生成し、シミュレーション実験で効果を分析。 Comment

# 一言で言うと

ユーザとインタラクションしながら重要なコンセプトを決め、そのコンセプトが含まれるようにILPな手法で要約を生成するPDS手法。Interactive Personalized Summarizationと似ている（似ているが引用していない、引用した方がよいのでは）。

# 手法

要約モデルは既存のMDS手法を採用。Concept-based ILP Summarization

フィードバックをユーザからもらう際は、要約を生成し、それをユーザに提示。提示した要約から重要なコンセプトをユーザに選択してもらう形式（ユーザが重要と判断したコンセプトには定数重みが与えられる）。

ユーザに対して、τ回フィードバックをもらうまでは、フィードバックをもらっていないコンセプトの重要度が高くなるようにし、フィードバックをもらったコンセプトの重要度が低くなるように目的関数を調整する。これにより、まだフィードバックを受けていないコンセプトが多く含まれる要約が生成されるため、これをユーザに提示することでユーザのフィードバックを得る。τ回を超えたら、ユーザのフィードバックから決まったweightが最大となるように目的関数を修正する。

ユーザからコンセプトのフィードバックを受ける際は、効率的にフィードバックを受けられると良い（最小のインタラクションで）。そこで、Active Learningを導入する。コンセプトの重要度の不確実性をSVMで判定し、不確実性が高いコンセプトを優先的に含むように目的関数を修正する手法（AL）、SVMで重要度が高いと推定されたコンセプトを優先的に要約に含むように目的関数を修正する手法（AL+）を提案している。

# 評価

oracle-based approachというものを使っている。要は、要約をシステムが提示しリファレンスと被っているコンセプトはユーザから重要だとフィードバックがあったコンセプトだとみなすというもの。

評価結果を見ると、ベースラインのMDSと比べてupper bound近くまでROUGEスコアが上がっている。フィードバックをもらうためのイテレーションは最大で１０回に絞っている模様（これ以上ユーザとインタラクションするのは非現実的）。

実際にユーザがシステムを使用する場合のコンテキストに沿った評価になっていないと思う。

この評価で示せているのは、ReferenceSummary中に含まれる単語にバイアスをかけて要約を生成していくと、ReferenceSummaryと同様な要約が最終的に作れます、ということと、このときPool-basedなActiveLearningを使うと、より少ないインタラクションでこれが実現できますということ。

これを示すのは別に良いと思うのだが、feedbackをReferenceSummaryから与えるのは少し現実から離れすぎている気が。たとえばユーザが新しいことを学ぶときは、ある時は一つのことを深堀し、そこからさらに浅いところに戻って別のところを深堀するみたいなプロセスをする気がするが、この深堀フェーズなどはReferenceSummaryからのフィードバックからでは再現できないのでは。

# 所感

評価が甘いと感じる。十分なサイズのサンプルを得るのは厳しいからorable-based approachとりましたと書いてあるが、なんらかの人手評価もあったほうが良いと思う。

ユーザに数百単語ものフィードバックをもらうというのはあまり現時的ではない気が。

oracle-based approachでユーザのフィードバックをシミュレーションしているが、oracleの要約は、人がそのドキュメントクラスタの内容を完璧に理解した上で要約しているものなので、これを評価に使うのも実際のコンテキストと違うと思う。実際にユーザがシステムを使うときは、ドキュメントクラスタの内容なんてなんも知らないわけで、そのユーザからもらえるフィードバックをoracle-based approachでシミュレーションするのは無理がある。仮に、ドキュメントクラスタの内容を完璧に理解しているユーザのフィードバックをシミュレーションするというのなら、わかる。が、そういうユーザのために要約作って提示したいわけではないはず。

[Paper Note] Interactive Recommender Systems, Netflix, RecSys'15, 2015.09

Paper/Blog Link My Issue
#RecommenderSystems #Tutorial #InteractiveRecommenderSystems #Slide #RecSys Issue Date: 2017-12-28

[Paper Note] Hierarchical Summarization: Scaling Up Multi-Document Summarization, Christensen+, ACL'14

Paper/Blog Link My Issue
#Multi #DocumentSummarization #NLP #Extractive #ACL #Selected Papers/Blogs #KeyPoint Notes #Hierarchical Issue Date: 2017-12-28 Comment

## 概要

だいぶ前に読んだ。好きな研究。

テキストのsentenceを階層的にクラスタリングすることで、抽象度が高い情報から、関連する具体度の高いsentenceにdrill downしていけるInteractiveな要約を提案している。

## 手法

通常のMDSでのデータセットの規模よりも、実際にMDSを使う際にはさらに大きな規模のデータを扱わなければならないことを指摘し（たとえばNew York Timesで特定のワードでイベントを検索すると数千、数万件の記事がヒットしたりする）そのために必要な事項を検討。

これを実現するために、階層的なクラスタリングベースのアプローチを提案。

提案手法では、テキストのsentenceを階層的にクラスタリングし、下位の層に行くほどより具体的な情報になるようにsentenceを表現。さらに、上位、下位のsentence間にはエッジが張られており、下位に紐付けられたsentence

は上位に紐付けられたsentenceの情報をより具体的に述べたものとなっている。

これを活用することで、drill down型のInteractiveな要約を実現。

[Paper Note] Summarize What You Are Interested In: An Optimization Framework for Interactive Personalized Summarization, Yan+, EMNLP'11, 2011.07

Paper/Blog Link My Issue
#Multi #PersonalizedDocumentSummarization #DocumentSummarization #InteractivePersonalizedSummarization #NLP #Personalization #EMNLP #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2017-12-28 Comment

ユーザとシステムがインタラクションしながら個人向けの要約を生成するタスク、InteractivePersonalizedSummarizationを提案。

ユーザはテキスト中のsentenceをクリックすることで、システムに知りたい情報のフィードバックを送ることができる。このとき、ユーザがsentenceをクリックする量はたかがしれているので、click smoothingと呼ばれる手法を提案し、sparseにならないようにしている。click smoothingは、ユーザがクリックしたsentenceに含まれる単語？等を含む別のsentence等も擬似的にclickされたとみなす手法。

4つのイベント（Influenza A, BP Oil Spill, Haiti Earthquake, Jackson Death）に関する、数千記事のニュースストーリーを収集し（10k〜100k程度のsentence）、評価に活用。収集したニュースサイト（BBC, Fox News, Xinhua, MSNBC, CNN, Guardian, ABC, NEwYorkTimes, Reuters, Washington Post）には、各イベントに対する人手で作成されたReference Summaryがあるのでそれを活用。
objectiveな評価としてROUGE、subjectiveな評価として3人のevaluatorに5scaleで要約の良さを評価してもらった。

結論としては、ROUGEはGenericなMDSモデルに勝てないが、subjectiveな評価においてベースラインを上回る結果に。ReferenceはGenericに生成されているため、この結果を受けてPersonalizationの必要性を説いている。

また、提案手法のモデルにおいて、Genericなモデルの影響を強くする（Personalizedなハイパーパラメータを小さくする）と、ユーザはシステムとあまりインタラクションせずに終わってしまうのに対し、Personalizedな要素を強くすると、よりたくさんクリックをし、結果的にシステムがより多く要約を生成しなおすという結果も示している。

Flipbook is an infinite visual browser generated entirely on demand in real time, Shah+, 2026.04

Paper/Blog Link My Issue
#Article #ComputerVision #Blog #VideoGeneration/Understandings #Realtime #Initial Impression Notes #GUI Issue Date: 2026-04-25 Comment

元ポスト:

Loading…

画面上のピクセルを全てVideo Generationによってinteractiveに描画するGUIのデモのようである

Matrix-Game 3.0: Real-Time and Streaming Interactive World Model with Long-Horizon Memory, Skywork AI, 2026.04

Paper/Blog Link My Issue
#Article #ComputerVision #Transformer #SyntheticData #DiffusionModel #OpenWeight #VideoGeneration/Understandings #WorldModels #Game #3D (Video) #LongHorizon #Realtime #Initial Impression Notes Issue Date: 2026-04-02 Comment

元ポスト:

Loading…

Unreal Engineで合成されたデータに基づいて学習されたDiTベースのWorld Modelらしい。

Acknowleagementから察するに、Wan2.2がベースモデルで、self-forcingが学習に用いられている。
- Wan2.2, Alibaba Wan, 2025.07
- [Paper Note] Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion, Xun Huang+, NeurIPS'25

また、action control moduleをアーキテクチャに導入することで、汎用的な動画生成モデルにキーボード、マウス等のアクションによるコントロールを実現している模様。
- [Paper Note] GameFactory: Creating New Games with Generative Interactive Videos, Jiwen Yu+, arXiv'25, 2025.01

デコードの高速化には量子化を利用しているとのこと。

HF: https://huggingface.co/Skywork/Matrix-Game-3.0

[Paper Note] Position: Humans are Missing from AI Coding Agent Research, Wang+, 2026.02

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #UserBased #AIAgents #Coding #read-later #Selected Papers/Blogs #One-Line Notes #Initial Impression Notes Issue Date: 2026-02-12 Comment

# Authors
Zora Zhiruo Wang, John Yang, Kilian Lieret, Alexa Tartaglini, Valerie Chen, Yuxiang Wei,
Zijian Wang, Lingming Zhang, Karthik Narasimhan, Ludwig Schmidt, Graham Neubig, Daniel Fried, Diyi Yang

元ポスト:

Loading…

現在のコーディングエージェントは自動的にタスクを完了させ、難易度の高いベンチマークを解けることが実用的な価値とみなされているが、今後より実用的な価値を高めプロダクト化するためには単独でタスクをこなすのではなく、人間開発者やユーザとの相互作用をするような枠組みが次のブレイクスルーとなりうるというposition。非常に共感できる。

Project Genie: Experimenting with infinite, interactive worlds, Google Deepmind, 2026.01

Paper/Blog Link My Issue
#Article #ComputerVision #NLP #GenerativeAI #Proprietary #WorldModels Issue Date: 2026-01-30 Comment

元ポスト:

Loading…

Googleからのworld model

Waypoint-1: Real-time Interactive Video Diffusion from Overworld, Overworld, 2026.01

Paper/Blog Link My Issue
#Article #ComputerVision #Controllable #NLP #Transformer #MultiModal #DiffusionModel #OpenWeight #WorldModels #3D (Video) #One-Line Notes #RectifiedFlow #Realtime Issue Date: 2026-01-22 Comment

blog: https://over.world/blog/the-path-to-real-time-worlds-and-why-it-matters
pj page: https://over.world/

元ポスト:

Loading…

リアルタイムにzero latencyでマウス（カメラも自由に動かせる）、キーボード、テキストでinteraction可能なworld model

Pepper: A Real‑Time, Event‑Driven Architecture for Proactive Agentic Systems, Agentica Team, 2025.10

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Library #AIAgents #Personalization #Blog #Architecture Issue Date: 2025-10-03 Comment

元ポスト:

Loading…

受動的なエージェントではなく、ユーザに対して能動的に働きかけてくるイベントドリブンなAI Agentのアーキテクチャ提案と、そのためのライブラリな模様。

interactive

[Paper Note] Infinite Worlds with Versatile Interactions, Zelin Gao+, arXiv'26, 2026.07

[Paper Note] Video = World + Event Stream, Lianghua Huang+, arXiv'26, 2026.07

[Paper Note] Wan-Streamer v0.1: End-to-end Real-time Interactive Foundation Models, Lianghua Huang+, arXiv'26, 2026.06

[Paper Note] Multi-Faceted Interactivity Alignment in Full-Duplex Speech Models, Atsumoto Ohashi+, arXiv'26, 2026.06

[Paper Note] WorldMemArena: Evaluating Multimodal Agent Memory Through Action-World Interaction, Chengzhi Liu+, arXiv'26, 2026.05

[Paper Note] Gamma-World: Generative Multi-Agent World Modeling Beyond Two Players, Fangfu Liu+, arXiv'26, 2026.05

[Paper Note] Interactive Evaluation Requires a Design Science, Keyang Xuan+, arXiv'26, 2026.05

[Paper Note] WorldMark: A Unified Benchmark Suite for Interactive Video World Models, Xiaojie Xu+, arXiv'26, 2026.04

[Paper Note] ArtHOI: Articulated Human-Object Interaction Synthesis by 4D Reconstruction from Video Priors, Zihao Huang+, arXiv'26, 2026.03

[Paper Note] Generated Reality: Human-centric World Simulation using Interactive Video Generation with Hand and Camera Control, Linxi Xie+, arXiv'26, 2026.02

[Paper Note] VisGym: Diverse, Customizable, Scalable Environments for Multimodal Agents, Zirui Wang+, arXiv'26, 2026.01

[Paper Note] Advancing Open-source World Models, Robbyant Team+, arXiv'26, 2026.01

[Paper Note] NeuralOS: Towards Simulating Operating Systems via Neural Generative Models, Luke Rivard+, arXiv'25, 2025.07

[Paper Note] Training Proactive and Personalized LLM Agents, Weiwei Sun+, arXiv'25, 2025.11

[Paper Note] LongLive: Real-time Interactive Long Video Generation, Shuai Yang+, arXiv'25, 2025.09

[Paper Note] Interactive Recommendation Agent with Active User Commands, Jiakai Tang+, arXiv'25, 2025.09

[Paper Note] Hunyuan-GameCraft: High-dynamic Interactive Game Video Generation with Hybrid History Condition, Jiaqi Li+, arXiv'25

[Paper Note] Diffusion Models Are Real-Time Game Engines, Dani Valevski+, ICLR'25, 2024.08

[Paper Note] Joint Optimization of User-desired Content in Multi-document Summaries by Learning from User Feedback, P.V.S+, ACL'17, 2017.08

[Paper Note] Interactive Recommender Systems, Netflix, RecSys'15, 2015.09

[Paper Note] Hierarchical Summarization: Scaling Up Multi-Document Summarization, Christensen+, ACL'14

[Paper Note] Summarize What You Are Interested In: An Optimization Framework for Interactive Personalized Summarization, Yan+, EMNLP'11, 2011.07

Flipbook is an infinite visual browser generated entirely on demand in real time, Shah+, 2026.04

Matrix-Game 3.0: Real-Time and Streaming Interactive World Model with Long-Horizon Memory, Skywork AI, 2026.04

[Paper Note] Position: Humans are Missing from AI Coding Agent Research, Wang+, 2026.02

Project Genie: Experimenting with infinite, interactive worlds, Google Deepmind, 2026.01

Waypoint-1: Real-time Interactive Video Diffusion from Overworld, Overworld, 2026.01

Pepper: A Real‑Time, Event‑Driven Architecture for Proactive Agentic Systems, Agentica Team, 2025.10

[Paper Note] Hierarchical Summarization: Scaling Up Multi-Document Summarization, Christensen+, ACL'14