Game


Paper/Blog Link My Issue
#ComputerVision #Pocket #AIAgents #Generalization #VisionLanguageModel #3D (Scene) #Realtime Issue Date: 2025-11-13 GPT Summary- Lumineは、3Dオープンワールド環境で複雑なミッションをリアルタイムで完了できる一般的なエージェントのためのオープンレシピです。人間のようなインタラクションを採用し、視覚と言語のモデルを統合して知覚、推論、行動を実現。Genshin Impactで訓練されたLumineは、自然言語の指示に従い、幅広いタスクを効率的に実行します。また、ファインチューニングなしで他のゲームでも高いパフォーマンスを示し、オープンエンドな環境における一般的なエージェントへの進展を示しています。 Comment

pj page: https://www.lumine-ai.org/

> 1731 hours of human gameplay for pre-training to master action primitives;

> 200 hours of instruction following data to ground control in language;

> 15 hours of reasoning data to enable adaptive thinking.

元ポスト:

Loading…



Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #In-ContextLearning #Reasoning #LongSequence #EMNLP #read-later #Contamination-free #Selected Papers/Blogs Issue Date: 2025-08-30 GPT Summary- TurnaboutLLMという新しいフレームワークとデータセットを用いて、探偵ゲームのインタラクティブなプレイを通じてLLMsの演繹的推論能力を評価。証言と証拠の矛盾を特定する課題を設定し、12の最先端LLMを評価した結果、文脈のサイズや推論ステップ数がパフォーマンスに影響を与えることが示された。TurnaboutLLMは、複雑な物語環境におけるLLMsの推論能力に挑戦を提供する。 Comment

元ポスト:

Loading…

非常に面白そう。逆転裁判のデータを利用した超long contextな演繹的タスクにおいて、モデルが最終的な回答を間違える際はより多くの正解には貢献しないReasoning Stepを繰り返したり、QwQ-32BとGPT4.1は同等の性能だが、non thinkingモデルであるGPT4.1がより少量のReasoning Step (本研究では回答に至るまでに出力したトークン数と定義)で回答に到達し(=Test Time Scalingの恩恵がない)、フルコンテキストを与えて性能が向上したのはモデルサイズが大きい場合のみ(=Test Timeのreasoningよりも、in-contextでのreasoningが重要)だった、といった知見がある模様。じっくり読みたい。




Paper/Blog Link My Issue
#ComputerVision #Pocket #Transformer #DiffusionModel #OpenWeight #VideoGeneration/Understandings #WorldModels Issue Date: 2025-08-28 GPT Summary- Matrix-Game 2.0を提案し、インタラクティブな世界モデルがリアルタイムで長いビデオを生成できるようにする。主なコンポーネントは、スケーラブルなデータ生成パイプライン、インタラクティブな条件を可能にするアクション注入モジュール、リアルタイム生成のための数ステップの蒸留。これにより、25 FPSで高品質な1分間のビデオを生成可能。モデルの重みとコードはオープンソース化。 Comment

元ポスト:

Loading…

pj page: https://matrix-game-v2.github.io

公式:

Loading…



Paper/Blog Link My Issue
#Analysis #NLP #Blog Issue Date: 2025-08-24 Comment

arxivに無さそうなので、概要は元ポスト参照のこと。キャラクターらしさの構成要素とそれらがキャラクターらしさに関してどのように関係しているかを分析した研究な模様。

元ポスト:

Loading…



Paper/Blog Link My Issue
#ComputerVision #Pocket #VideoGeneration/Understandings #interactive Issue Date: 2025-08-14 GPT Summary- 「Hunyuan-GameCraft」という新しいフレームワークを提案し、ゲーム環境における高ダイナミックインタラクティブ動画生成を実現。キーボードとマウスの入力を統合し、動画シーケンスを自己回帰的に拡張することで、アクション制御と一貫性を向上。大規模データセットでトレーニングし、視覚的忠実性とリアリズムを強化。実験により、既存モデルを大幅に上回る性能を示した。 Comment

元ポスト:

Loading…

単体の画像と、prompt、マウス・キーボード入力に基づいてinteractiveに動画を合成する。軽量なGPUでも動作するように、高品質な合成データによってモデルを蒸留し軽量なモデルを利用したりもしている模様。そのうち家庭のゲーミングPCでこういったモデルでゲームをする日が来るのだろうか。
image

アーキテクチャに使われている技術:
- [Paper Note] DiT: Self-supervised Pre-training for Document Image Transformer, Junlong Li+, ACMMM'22
- Learning Transferable Visual Models From Natural Language Supervision, Radford+, OpenAI, ICML'21




Paper/Blog Link My Issue
#NeuralNetwork #ComputerVision #NaturalLanguageGeneration #NLP #DataToTextGeneration #INLG #4D (Video) Issue Date: 2022-09-15 GPT Summary- モーターレーシングゲームにおける自動解説生成タスクを提案し、視覚データ、数値データ、テキストデータを用いて解説を生成する。タスクは発話タイミングの特定と発話生成の2つのサブタスクに分かれ、129,226の発話を含む新しい大規模データセットを紹介。解説の特性は時間や視点によって変化し、最先端の視覚エンコーダでも正確な解説生成が難しいことが示された。データセットとベースライン実装は今後の研究のために公開される。 Comment

データセット: https://kirt.airc.aist.go.jp/corpus/ja/RacingCommentary




Paper/Blog Link My Issue
#MachineLearning #Pocket #NLP #Dataset #ReinforcementLearning #Evaluation #IJCAI #Workshop #text Issue Date: 2025-10-26 GPT Summary- TextWorldは、テキストベースのゲームにおける強化学習エージェントのトレーニングと評価のためのサンドボックス環境であり、ゲームのインタラクティブなプレイを処理するPythonライブラリを提供します。ユーザーは新しいゲームを手作りまたは自動生成でき、生成メカニズムによりゲームの難易度や言語を制御可能です。TextWorldは一般化や転移学習の研究にも利用され、ベンチマークゲームのセットを開発し、いくつかのベースラインエージェントを評価します。 Comment

リポジトリ: https://github.com/microsoft/TextWorld