Game


Paper/Blog Link My Issue
#ComputerVision #NLP #AIAgents #Evaluation #MultiModal #ComputerUse #read-later #Selected Papers/Blogs #VisionLanguageModel #Initial Impression Notes #Author Thread-Post Issue Date: 2026-04-19 GPT Summary- MLLMエージェントの課題を解決するため、テストベッドとしてGameWorldを導入。34のゲームと170のタスクを含み、性能評価を標準化。結果はエージェントが人間の能力には及ばないことを示唆。ゲームエージェントの相互作用や記憶、アクション妥当性に関する研究が今後の課題を明らかに。再現性のある評価フレームワークとして、GameWorldはマルチモーダルゲームエージェント研究の進展を促進。 Comment

元ポスト:

Loading…

Geminiがポケモンで評価されていたのと似ている。個人的にこの方向性の評価は非常に興味深く、理由としては
- ゲームをプレイしたデータはモデルの中の知識(学習データ)として埋め込まれずらく、コンタミネーションが生じづらい
- 知識がないのであれば、プレイして、ゲームという名の仮想世界のルールを理解してゲームをクリアせねばならず、これには高度な認知能力、プランニング、Reflectionなどの能力が求められる
- これらの能力が発揮されるには学習データのパターンから学習した手続きの適用よりも、より抽象的な理解が求められ、モデルがどれだけ人間の認知に近い能力を獲得しているかを測定できるのでは

という感想を持っているからである。

pj page: https://gameworld-project.github.io/




Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #AIAgents #Evaluation Issue Date: 2026-02-16 GPT Summary- ゲーム開発におけるマルチモーダルなコーディングエージェントの評価が遅れている問題に対処するため、初のベンチマーク「GameDevBench」を提案。本ベンチマークは132の複雑なタスクで構成され、コード行数とファイル変更が平均3倍以上になる。最良のエージェントでも54.5%のタスクしか解決できず、成功率はタスクの種類によって大きく異なる。マルチモーダル能力を高めるために、画像およびビデオベースのフィードバックメカニズムを導入した結果、Claude Sonnet 4.5の性能が33.3%から47.7%に向上。GameDevBenchはエージェントによるゲーム開発研究を促進する。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#ComputerVision #Controllable #Transformer #DiffusionModel #Architecture #PostTraining #VideoGeneration/Understandings #ICCV #One-Line Notes #Reading Reflections Issue Date: 2026-04-02 GPT Summary- GameFactoryは、アクション制御とシーン一般化を両立させたゲームビデオ生成のフレームワーク。GF-Minecraftというデータセットを用いてキーボードとマウス入力を正確に制御し、自己回帰生成を可能にする。さらに、オープンドメイン生成事前知識を活用し、固定スタイルを超えた多様なゲームの創出を支援。ドメインアダプターによる学習戦略によって、アクション制御が特定ゲームスタイルに縛られず、シーン一般化が実現。実験により、GameFactoryが効果的にオープンドメインのゲームビデオを生成できることが確認された。 Comment

github: https://github.com/KlingAIResearch/GameFactory

小規模なマイクラデータでaction control moduleと呼ばれるモジュールを学習することで、動画生成モデルに対して、マウス、キーボード入力によるコントロール能力を転移し、ゲーム映像を生成できる、という話に見える。
image

4.2節に書かれているように、transformerのブロックにaction control moduleと呼ばれる、キーボードとマウスの入力をwindowでグルーピングしてエンコードするようなブロックを挿入し、エンコードされたvideo側の潜在表現に対して条件付けを行い生成を可能にしているようである(Figure 3, 4)。学習する際はFigure 6に示されているように、まずはopen domainのデータで事前学習、その後LoRAでgame video dataのドメイン情報を入れ、他モジュールはfreezeした上で、action control moduleのみを学習する。
image

transformerアーキテクチャにドメイン依存のブロックを後でplugし性能向上させるアプローチはおもしろいと感じる。




Paper/Blog Link My Issue
#ComputerVision #AIAgents #Generalization #VisionLanguageModel #3D (Scene) #Realtime Issue Date: 2025-11-13 GPT Summary- Lumineは、3Dオープンワールド環境で複雑なミッションをリアルタイムで完了できる一般的なエージェントのためのオープンレシピです。人間のようなインタラクションを採用し、視覚と言語のモデルを統合して知覚、推論、行動を実現。Genshin Impactで訓練されたLumineは、自然言語の指示に従い、幅広いタスクを効率的に実行します。また、ファインチューニングなしで他のゲームでも高いパフォーマンスを示し、オープンエンドな環境における一般的なエージェントへの進展を示しています。 Comment

pj page: https://www.lumine-ai.org/

> 1731 hours of human gameplay for pre-training to master action primitives;

> 200 hours of instruction following data to ground control in language;

> 15 hours of reasoning data to enable adaptive thinking.

元ポスト:

Loading…




Paper/Blog Link My Issue
#NLP #LanguageModel #In-ContextLearning #Reasoning #LongSequence #EMNLP #read-later #Contamination-free #Selected Papers/Blogs Issue Date: 2025-08-30 GPT Summary- TurnaboutLLMという新しいフレームワークとデータセットを用いて、探偵ゲームのインタラクティブなプレイを通じてLLMsの演繹的推論能力を評価。証言と証拠の矛盾を特定する課題を設定し、12の最先端LLMを評価した結果、文脈のサイズや推論ステップ数がパフォーマンスに影響を与えることが示された。TurnaboutLLMは、複雑な物語環境におけるLLMsの推論能力に挑戦を提供する。 Comment

元ポスト:

Loading…

非常に面白そう。逆転裁判のデータを利用した超long contextな演繹的タスクにおいて、モデルが最終的な回答を間違える際はより多くの正解には貢献しないReasoning Stepを繰り返したり、QwQ-32BとGPT4.1は同等の性能だが、non thinkingモデルであるGPT4.1がより少量のReasoning Step (本研究では回答に至るまでに出力したトークン数と定義)で回答に到達し(=Test Time Scalingの恩恵がない)、フルコンテキストを与えて性能が向上したのはモデルサイズが大きい場合のみ(=Test Timeのreasoningよりも、in-contextでのreasoningが重要)だった、といった知見がある模様。じっくり読みたい。




Paper/Blog Link My Issue
#ComputerVision #Transformer #DiffusionModel #OpenWeight #VideoGeneration/Understandings #WorldModels Issue Date: 2025-08-28 GPT Summary- Matrix-Game 2.0を提案し、インタラクティブな世界モデルがリアルタイムで長いビデオを生成できるようにする。主なコンポーネントは、スケーラブルなデータ生成パイプライン、インタラクティブな条件を可能にするアクション注入モジュール、リアルタイム生成のための数ステップの蒸留。これにより、25 FPSで高品質な1分間のビデオを生成可能。モデルの重みとコードはオープンソース化。 Comment

元ポスト:

Loading…

pj page: https://matrix-game-v2.github.io

公式:

Loading…




Paper/Blog Link My Issue
#Analysis #NLP #Blog Issue Date: 2025-08-24 Comment

arxivに無さそうなので、概要は元ポスト参照のこと。キャラクターらしさの構成要素とそれらがキャラクターらしさに関してどのように関係しているかを分析した研究な模様。

元ポスト:

Loading…




Paper/Blog Link My Issue
#ComputerVision #VideoGeneration/Understandings #interactive Issue Date: 2025-08-14 GPT Summary- 「Hunyuan-GameCraft」という新しいフレームワークを提案し、ゲーム環境における高ダイナミックインタラクティブ動画生成を実現。キーボードとマウスの入力を統合し、動画シーケンスを自己回帰的に拡張することで、アクション制御と一貫性を向上。大規模データセットでトレーニングし、視覚的忠実性とリアリズムを強化。実験により、既存モデルを大幅に上回る性能を示した。 Comment

元ポスト:

Loading…

単体の画像と、prompt、マウス・キーボード入力に基づいてinteractiveに動画を合成する。軽量なGPUでも動作するように、高品質な合成データによってモデルを蒸留し軽量なモデルを利用したりもしている模様。そのうち家庭のゲーミングPCでこういったモデルでゲームをする日が来るのだろうか。
image

アーキテクチャに使われている技術:
- [Paper Note] DiT: Self-supervised Pre-training for Document Image Transformer, Junlong Li+, ACMMM'22
- Learning Transferable Visual Models From Natural Language Supervision, Radford+, OpenAI, ICML'21




Paper/Blog Link My Issue
#NeuralNetwork #ComputerVision #NaturalLanguageGeneration #NLP #DataToTextGeneration #INLG #4D (Video) Issue Date: 2022-09-15 GPT Summary- モーターレーシングゲームにおける自動解説生成タスクを提案し、視覚データ、数値データ、テキストデータを用いて解説を生成する。タスクは発話タイミングの特定と発話生成の2つのサブタスクに分かれ、129,226の発話を含む新しい大規模データセットを紹介。解説の特性は時間や視点によって変化し、最先端の視覚エンコーダでも正確な解説生成が難しいことが示された。データセットとベースライン実装は今後の研究のために公開される。 Comment

データセット: https://kirt.airc.aist.go.jp/corpus/ja/RacingCommentary




Paper/Blog Link My Issue
#MachineLearning #NLP #Dataset #ReinforcementLearning #Evaluation #IJCAI #Workshop #text Issue Date: 2025-10-26 GPT Summary- TextWorldは、テキストベースのゲームにおける強化学習エージェントのトレーニングと評価のためのサンドボックス環境であり、ゲームのインタラクティブなプレイを処理するPythonライブラリを提供します。ユーザーは新しいゲームを手作りまたは自動生成でき、生成メカニズムによりゲームの難易度や言語を制御可能です。TextWorldは一般化や転移学習の研究にも利用され、ベンチマークゲームのセットを開発し、いくつかのベースラインエージェントを評価します。 Comment

リポジトリ: https://github.com/microsoft/TextWorld




Paper/Blog Link My Issue
#NeuralNetwork #MachineLearning #ReinforcementLearning #NeurIPS #Robotics Issue Date: 2026-02-12 GPT Summary- 人間の好みに基づいてRL目標を定義し、報酬関数なしで複雑なタスクを解決。Atariゲームやロボットの移動を通じて、1%未満のフィードバックで効果を示し、人間の監視コストを削減。約1時間のトレーニングで新しい行動を成功裡に習得。

Paper/Blog Link My Issue
#Article #ComputerVision #Transformer #SyntheticData #DiffusionModel #OpenWeight #VideoGeneration/Understandings #WorldModels #interactive #4D (Video) #LongHorizon #Realtime #Initial Impression Notes Issue Date: 2026-04-02 Comment

元ポスト:

Loading…

Unreal Engineで合成されたデータに基づいて学習されたDiTベースのWorld Modelらしい。

Acknowleagementから察するに、Wan2.2がベースモデルで、self-forcingが学習に用いられている。
- Wan2.2, Alibaba Wan, 2025.07
- [Paper Note] Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion, Xun Huang+, NeurIPS'25

また、action control moduleをアーキテクチャに導入することで、汎用的な動画生成モデルにキーボード、マウス等のアクションによるコントロールを実現している模様。
- [Paper Note] GameFactory: Creating New Games with Generative Interactive Videos, Jiwen Yu+, arXiv'25, 2025.01

デコードの高速化には量子化を利用しているとのこと。

HF: https://huggingface.co/Skywork/Matrix-Game-3.0