interactive
[Paper Note] ArtHOI: Articulated Human-Object Interaction Synthesis by 4D Reconstruction from Video Priors, Zihao Huang+, arXiv'26, 2026.03
Paper/Blog Link My Issue
#ComputerVision #4D Reconstruction #4D (Video) #Reference Collection Issue Date: 2026-03-06 GPT Summary- ArtHOIは、単眼動画からの情報を用いて4Dの関節付き人間-物体相互作用を合成する初のゼロショットフレームワークである。このアプローチでは、動画の逆レンダリングを通じて接触や関節運動を自然に満たす物理的に妥当な4Dシーンを再構成する。提案手法は、光学フローを基に動的および静的領域を分離し、安定した物体のアーティキュレーションを回復した後、条件として人間の運動を生成する。また、多様なシーンにおいて、従来手法を上回る精度で相互作用を実現する。 Comment
pj page: https://arthoi.github.io/
元ポスト:
著者ポスト:
ポイント解説:
[Paper Note] Generated Reality: Human-centric World Simulation using Interactive Video Generation with Hand and Camera Control, Linxi Xie+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#ComputerVision #VideoGeneration/Understandings #4D (Video) Issue Date: 2026-02-24 GPT Summary- 人間中心のビデオワールドモデルを提案し、追跡された頭部および手の姿勢に基づく生成モデルを導入。既存の条件付け戦略を改善し、巧妙な手と物体の相互作用を可能にする。双方向のビデオ拡散モデルを訓練し、自分視点の仮想環境を作成。評価実験により、タスクパフォーマンスの向上と高い知覚的制御感を示す。 Comment
[Paper Note] VisGym: Diverse, Customizable, Scalable Environments for Multimodal Agents, Zirui Wang+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#ComputerVision #NLP #Dataset #Evaluation #LongSequence #VisionLanguageModel #Initial Impression Notes Issue Date: 2026-02-03 GPT Summary- 現代の視覚-言語モデル(VLM)は、複雑な視覚的相互作用において効果的に機能しておらず、特に長期的な知覚や記憶の統合に課題があります。これに対処するため、「VisGym」という17の環境を導入し、記号パズルやナビゲーションを含む多様な設定でモデルを評価・訓練します。実験では、最前線のモデルがインタラクティブな場面で苦戦していることが示され、長い文脈の活用に制限があることが明らかになりました。しかし、目標観察やテキストフィードバックによる微調整は、モデルの視覚的意思決定を改善する効果が確認されました。 Comment
pj page: https://visgym.github.io/
元ポスト:
このベンチマーク上のSoTAであるGemini 3 Proでも平均Acc.50%に到達しないinteractiveなVQAタスク群な模様
[Paper Note] Advancing Open-source World Models, Robbyant Team+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#ComputerVision #NLP #DiffusionModel #OpenWeight #WorldModels Issue Date: 2026-01-30 GPT Summary- LingBot-Worldは、リアルで多様な環境を持つオープンソースの世界シミュレーターで、高忠実度と堅牢なダイナミクスを提供。文脈の一貫性を保つ「長期記憶」機能や、1秒未満のレイテンシーでのリアルタイム生成を実現。オープンソースの技術提供により、コンテンツ制作やゲーム、ロボット学習に貢献することを目指す。 Comment
pj page: https://technology.robbyant.com/lingbot-world
元ポスト:
[Paper Note] NeuralOS: Towards Simulating Operating Systems via Neural Generative Models, Luke Rivard+, arXiv'25, 2025.07
Paper/Blog Link My Issue
#ComputerVision #DiffusionModel #ICLR #read-later #Selected Papers/Blogs #WorldModels #RecurrentModels #GUI Issue Date: 2026-01-17 GPT Summary- NeuralOSは、ユーザーの入力に基づいてGUIをシミュレーションするニューラルフレームワークであり、RNNと拡散ベースのレンダラーを組み合わせています。Ubuntu XFCEの録画データを用いた訓練により、リアルなGUIシーケンスをレンダリングし、状態遷移を信頼性高く予測可能であることが実証されました。キーボードインタラクションのモデル化は依然として難しいものの、NeuralOSは将来のヒューマンコンピュータインタラクションのための適応的なインターフェイスの一歩を示します。 Comment
元ポスト:
openreview: https://openreview.net/forum?id=TE2Vu7WJki
[Paper Note] Training Proactive and Personalized LLM Agents, Weiwei Sun+, arXiv'25, 2025.11
Paper/Blog Link My Issue
#NLP #LanguageModel #UserBased #AIAgents #SoftwareEngineering #read-later #Selected Papers/Blogs Issue Date: 2025-11-06 GPT Summary- 効果的なAIエージェントには、生産性、積極性、パーソナライズの3つの次元を最適化する必要があると主張。LLMベースのユーザーシミュレーター「UserVille」を導入し、PPPというマルチオブジェクティブ強化学習アプローチを提案。実験では、PPPで訓練されたエージェントがGPT-5に対して平均21.6ポイントの改善を達成し、ユーザーの好みに適応しながらタスク成功を向上させる能力を示した。 Comment
AI Agentにおいてユーザとのinteractionを重視し協働することを重視するようなRLをする模様。興味深い。
元ポスト:
[Paper Note] LongLive: Real-time Interactive Long Video Generation, Shuai Yang+, arXiv'25, 2025.09
Paper/Blog Link My Issue
#ComputerVision #LongSequence #AttentionSinks #read-later #Selected Papers/Blogs #VideoGeneration/Understandings Issue Date: 2025-10-17 GPT Summary- LongLiveは、リアルタイムでインタラクティブな長編動画生成のためのフレームレベルの自己回帰フレームワークを提案。因果的注意ARモデルを採用し、KV再キャッシュメカニズムを統合することで、視覚的一貫性と意味的整合性を保ちながら効率的な生成を実現。1.3Bパラメータのモデルを32 GPU日でファインチューニングし、単一のNVIDIA H100で20.7 FPSを維持。最大240秒の動画生成をサポートし、INT8量子化推論も対応。 Comment
元ポスト:
pj page: https://nvlabs.github.io/LongLive/
[Paper Note] Interactive Recommendation Agent with Active User Commands, Jiakai Tang+, arXiv'25, 2025.09
Paper/Blog Link My Issue
#RecommenderSystems #LanguageModel #read-later #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-09-29 GPT Summary- 従来のレコメンダーシステムは受動的なフィードバックに依存し、ユーザーの意図を捉えられないため、嗜好モデルの構築が困難である。これに対処するため、インタラクティブレコメンデーションフィード(IRF)を導入し、自然言語コマンドによる能動的な制御を可能にする。RecBotという二重エージェントアーキテクチャを開発し、ユーザーの嗜好を構造化し、ポリシー調整を行う。シミュレーション強化知識蒸留を用いて効率的なパフォーマンスを実現し、実験によりユーザー満足度とビジネス成果の改善を示した。 Comment
元ポスト:
ABテストを実施しているようなので信ぴょう性高め
[Paper Note] Hunyuan-GameCraft: High-dynamic Interactive Game Video Generation with Hybrid History Condition, Jiaqi Li+, arXiv'25
Paper/Blog Link My Issue
#ComputerVision #VideoGeneration/Understandings #Game Issue Date: 2025-08-14 GPT Summary- 「Hunyuan-GameCraft」という新しいフレームワークを提案し、ゲーム環境における高ダイナミックインタラクティブ動画生成を実現。キーボードとマウスの入力を統合し、動画シーケンスを自己回帰的に拡張することで、アクション制御と一貫性を向上。大規模データセットでトレーニングし、視覚的忠実性とリアリズムを強化。実験により、既存モデルを大幅に上回る性能を示した。 Comment
元ポスト:
単体の画像と、prompt、マウス・キーボード入力に基づいてinteractiveに動画を合成する。軽量なGPUでも動作するように、高品質な合成データによってモデルを蒸留し軽量なモデルを利用したりもしている模様。そのうち家庭のゲーミングPCでこういったモデルでゲームをする日が来るのだろうか。
アーキテクチャに使われている技術:
- [Paper Note] DiT: Self-supervised Pre-training for Document Image Transformer, Junlong Li+, ACMMM'22
- Learning Transferable Visual Models From Natural Language Supervision, Radford+, OpenAI, ICML'21
[Paper Note] Joint Optimization of User-desired Content in Multi-document Summaries by Learning from User Feedback, P.V.S+, ACL'17, 2017.08
Paper/Blog Link My Issue
#PersonalizedDocumentSummarization #DocumentSummarization #InteractivePersonalizedSummarization #NLP #IntegerLinearProgramming (ILP) #Personalization #ACL #In-Depth Notes Issue Date: 2017-12-28 GPT Summary- ユーザーフィードバックを活用した抽出的マルチドキュメント要約システムを提案。インタラクティブにフィードバックを取得し、ILPフレームワークを用いて要約の質を向上。最小限の反復で高品質な要約を生成し、シミュレーション実験で効果を分析。 Comment
# 一言で言うと
ユーザとインタラクションしながら重要なコンセプトを決め、そのコンセプトが含まれるようにILPな手法で要約を生成するPDS手法。Interactive Personalized Summarizationと似ている(似ているが引用していない、引用した方がよいのでは)。
# 手法
要約モデルは既存のMDS手法を採用。Concept-based ILP Summarization
フィードバックをユーザからもらう際は、要約を生成し、それをユーザに提示。提示した要約から重要なコンセプトをユーザに選択してもらう形式(ユーザが重要と判断したコンセプトには定数重みが与えられる)。
ユーザに対して、τ回フィードバックをもらうまでは、フィードバックをもらっていないコンセプトの重要度が高くなるようにし、フィードバックをもらったコンセプトの重要度が低くなるように目的関数を調整する。これにより、まだフィードバックを受けていないコンセプトが多く含まれる要約が生成されるため、これをユーザに提示することでユーザのフィードバックを得る。τ回を超えたら、ユーザのフィードバックから決まったweightが最大となるように目的関数を修正する。
ユーザからコンセプトのフィードバックを受ける際は、効率的にフィードバックを受けられると良い(最小のインタラクションで)。そこで、Active Learningを導入する。コンセプトの重要度の不確実性をSVMで判定し、不確実性が高いコンセプトを優先的に含むように目的関数を修正する手法(AL)、SVMで重要度が高いと推定されたコンセプトを優先的に要約に含むように目的関数を修正する手法(AL+)を提案している。
# 評価
oracle-based approachというものを使っている。要は、要約をシステムが提示しリファレンスと被っているコンセプトはユーザから重要だとフィードバックがあったコンセプトだとみなすというもの。
評価結果を見ると、ベースラインのMDSと比べてupper bound近くまでROUGEスコアが上がっている。フィードバックをもらうためのイテレーションは最大で10回に絞っている模様(これ以上ユーザとインタラクションするのは非現実的)。
実際にユーザがシステムを使用する場合のコンテキストに沿った評価になっていないと思う。
この評価で示せているのは、ReferenceSummary中に含まれる単語にバイアスをかけて要約を生成していくと、ReferenceSummaryと同様な要約が最終的に作れます、ということと、このときPool-basedなActiveLearningを使うと、より少ないインタラクションでこれが実現できますということ。
これを示すのは別に良いと思うのだが、feedbackをReferenceSummaryから与えるのは少し現実から離れすぎている気が。たとえばユーザが新しいことを学ぶときは、ある時は一つのことを深堀し、そこからさらに浅いところに戻って別のところを深堀するみたいなプロセスをする気がするが、この深堀フェーズなどはReferenceSummaryからのフィードバックからでは再現できないのでは。
# 所感
評価が甘いと感じる。十分なサイズのサンプルを得るのは厳しいからorable-based approachとりましたと書いてあるが、なんらかの人手評価もあったほうが良いと思う。
ユーザに数百単語ものフィードバックをもらうというのはあまり現時的ではない気が。
oracle-based approachでユーザのフィードバックをシミュレーションしているが、oracleの要約は、人がそのドキュメントクラスタの内容を完璧に理解した上で要約しているものなので、これを評価に使うのも実際のコンテキストと違うと思う。実際にユーザがシステムを使うときは、ドキュメントクラスタの内容なんてなんも知らないわけで、そのユーザからもらえるフィードバックをoracle-based approachでシミュレーションするのは無理がある。仮に、ドキュメントクラスタの内容を完璧に理解しているユーザのフィードバックをシミュレーションするというのなら、わかる。が、そういうユーザのために要約作って提示したいわけではないはず。
[Paper Note] Interactive Recommender Systems, Netflix, RecSys'15, 2015.09
Paper/Blog Link My Issue
#RecommenderSystems #Tutorial #InteractiveRecommenderSystems #Slide #RecSys Issue Date: 2017-12-28
[Paper Note] Hierarchical Summarization: Scaling Up Multi-Document Summarization, Christensen+, ACL'14
Paper/Blog Link My Issue
#Multi #DocumentSummarization #NLP #Extractive #ACL #Selected Papers/Blogs #KeyPoint Notes #Hierarchical Issue Date: 2017-12-28 Comment
## 概要
だいぶ前に読んだ。好きな研究。
テキストのsentenceを階層的にクラスタリングすることで、抽象度が高い情報から、関連する具体度の高いsentenceにdrill downしていけるInteractiveな要約を提案している。
## 手法
通常のMDSでのデータセットの規模よりも、実際にMDSを使う際にはさらに大きな規模のデータを扱わなければならないことを指摘し(たとえばNew York Timesで特定のワードでイベントを検索すると数千、数万件の記事がヒットしたりする)そのために必要な事項を検討。
これを実現するために、階層的なクラスタリングベースのアプローチを提案。
提案手法では、テキストのsentenceを階層的にクラスタリングし、下位の層に行くほどより具体的な情報になるようにsentenceを表現。さらに、上位、下位のsentence間にはエッジが張られており、下位に紐付けられたsentence
は上位に紐付けられたsentenceの情報をより具体的に述べたものとなっている。
これを活用することで、drill down型のInteractiveな要約を実現。
[Paper Note] Summarize What You Are Interested In: An Optimization Framework for Interactive Personalized Summarization, Yan+, EMNLP'11, 2011.07
Paper/Blog Link My Issue
#Multi #PersonalizedDocumentSummarization #DocumentSummarization #InteractivePersonalizedSummarization #NLP #Personalization #EMNLP #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2017-12-28 Comment
ユーザとシステムがインタラクションしながら個人向けの要約を生成するタスク、InteractivePersonalizedSummarizationを提案。
ユーザはテキスト中のsentenceをクリックすることで、システムに知りたい情報のフィードバックを送ることができる。このとき、ユーザがsentenceをクリックする量はたかがしれているので、click smoothingと呼ばれる手法を提案し、sparseにならないようにしている。click smoothingは、ユーザがクリックしたsentenceに含まれる単語?等を含む別のsentence等も擬似的にclickされたとみなす手法。
4つのイベント(Influenza A, BP Oil Spill, Haiti Earthquake, Jackson Death)に関する、数千記事のニュースストーリーを収集し(10k〜100k程度のsentence)、評価に活用。収集したニュースサイト(BBC, Fox News, Xinhua, MSNBC, CNN, Guardian, ABC, NEwYorkTimes, Reuters, Washington Post)には、各イベントに対する人手で作成されたReference Summaryがあるのでそれを活用。
objectiveな評価としてROUGE、subjectiveな評価として3人のevaluatorに5scaleで要約の良さを評価してもらった。
結論としては、ROUGEはGenericなMDSモデルに勝てないが、subjectiveな評価においてベースラインを上回る結果に。ReferenceはGenericに生成されているため、この結果を受けてPersonalizationの必要性を説いている。
また、提案手法のモデルにおいて、Genericなモデルの影響を強くする(Personalizedなハイパーパラメータを小さくする)と、ユーザはシステムとあまりインタラクションせずに終わってしまうのに対し、Personalizedな要素を強くすると、よりたくさんクリックをし、結果的にシステムがより多く要約を生成しなおすという結果も示している。
[Paper Note] Position: Humans are Missing from AI Coding Agent Research, Wang+, 2026.02
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #UserBased #AIAgents #Coding #read-later #Selected Papers/Blogs #One-Line Notes #Initial Impression Notes Issue Date: 2026-02-12 Comment
# Authors
Zora Zhiruo Wang, John Yang, Kilian Lieret, Alexa Tartaglini, Valerie Chen, Yuxiang Wei,
Zijian Wang, Lingming Zhang, Karthik Narasimhan, Ludwig Schmidt, Graham Neubig, Daniel Fried, Diyi Yang
元ポスト:
現在のコーディングエージェントは自動的にタスクを完了させ、難易度の高いベンチマークを解けることが実用的な価値とみなされているが、今後より実用的な価値を高めプロダクト化するためには単独でタスクをこなすのではなく、人間開発者やユーザとの相互作用をするような枠組みが次のブレイクスルーとなりうるというposition。非常に共感できる。
Project Genie: Experimenting with infinite, interactive worlds, Google Deepmind, 2026.01
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #GenerativeAI #Proprietary #WorldModels Issue Date: 2026-01-30 Comment
元ポスト:
Googleからのworld model
Waypoint-1: Real-time Interactive Video Diffusion from Overworld, Overworld, 2026.01
Paper/Blog Link My Issue
#Article #ComputerVision #Controllable #NLP #Transformer #MultiModal #DiffusionModel #OpenWeight #WorldModels #4D (Video) #One-Line Notes #RectifiedFlow #Realtime Issue Date: 2026-01-22 Comment
blog:
https://over.world/blog/the-path-to-real-time-worlds-and-why-it-matters
pj page:
https://over.world/
元ポスト:
リアルタイムにzero latencyでマウス(カメラも自由に動かせる)、キーボード、テキストでinteraction可能なworld model
Pepper: A Real‑Time, Event‑Driven Architecture for Proactive Agentic Systems, Agentica Team, 2025.10
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Library #AIAgents #Personalization #Blog #Architecture Issue Date: 2025-10-03 Comment
元ポスト:
受動的なエージェントではなく、ユーザに対して能動的に働きかけてくるイベントドリブンなAI Agentのアーキテクチャ提案と、そのためのライブラリな模様。
