Temporal
[Paper Note] Understanding Data Temporality Impact on Large Language Models Pre-training, Hippolyte Pilchen+, arXiv'26, 2026.05
Paper/Blog Link My Issue
#Pretraining #NLP #LanguageModel #Factuality #read-later #Selected Papers/Blogs #FactualKnowledge #One-Line Notes Issue Date: 2026-05-27 GPT Summary- 時間的根拠を学ぶためのLLMの訓練におけるデータの並び順の重要性を探求。7,000件を超える時間的質問のベンチマークを作成し、事実と時期の結び付けを評価。6Bパラメータモデルを時系列で訓練した結果、シャッフル訓練と同等以上の性能を示しつつ、最新の知識を一貫して保持。これにより、時間的順序付けが知識の新鮮さを向上させることを明らかにした。関連コードやデータセットも公開し、今後のLLMの継続学習研究に寄与。 Comment
元ポスト:
事前学習時に時系列に応じて並び替えをしたコーパスと、シャッフルしたコーパスの場合、freshな知識が必要な質問に対する応答性能が改善する。実験では、Common Crawlのsnapshotの時刻のタイムスタンプに基づいてorderを決定しているようである(2.3説冒頭)。
評価のために作成されたQA例が下記で、NBAのバスケチームのコーチのような時間とともに正解が変化するような事実に関する質問によって構成されているようである。これらはwikipediaから特定の年と紐づいた (subject, relation, object) のタプルを抽出することによって生成される。
[Paper Note] Visual Jigsaw Post-Training Improves MLLMs, Penghao Wu+, ICLR'26, 2025.09
Paper/Blog Link My Issue
#ComputerVision #NLP #ReinforcementLearning #MultiModal #Self-SupervisedLearning #ICLR #PostTraining #RLVR #VisionLanguageModel #2D (Image) #3D (Scene) #4D (Video) #SpatialUnderstanding Issue Date: 2026-04-25 GPT Summary- 視覚理解を強化するための自己教師付きポストトレーニングフレームワーク「Visual Jigsaw」を提案。視覚入力を分割・シャッフルし、モデルは正しい順列を自然言語で出力。これにより強化学習と一致し、追加の視覚生成なしで自動的に監督信号を得る。広範な実験で知覚、時間的推論、3D理解の改善を確認し、視覚中心タスクの可能性を示唆。 Comment
pj page: https://penghao-wu.github.io/visual_jigsaw/
openreview: https://openreview.net/forum?id=tBf2SUzfZw
元ポスト:
[Paper Note] Exploring MLLM-Diffusion Information Transfer with MetaCanvas, Han Lin+, arXiv'25, 2025.12
Paper/Blog Link My Issue
#ComputerVision #NLP #LanguageModel #MultiModal #DiffusionModel #PEFT(Adaptor/LoRA) #SpatialUnderstanding Issue Date: 2025-12-24 GPT Summary- MetaCanvasという軽量フレームワークを提案し、マルチモーダル大規模言語モデル(MLLMs)が空間的および時空間的潜在空間で直接推論と計画を行えるようにする。これにより、画像や動画生成において正確な制御を実現。6つのタスクで評価した結果、MetaCanvasはグローバル条件付けのベースラインを常に上回り、MLLMsを潜在空間のプランナーとして扱うことが有望であることを示した。 Comment
pj page: https://metacanvas.github.io/
元ポスト:
[Paper Note] OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM, Hanrong Ye+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#ComputerVision #NLP #LanguageModel #SyntheticData #MultiModal #SpeechProcessing #Architecture #2D (Image) #TTS #4D (Video) #Omni #audio #text Issue Date: 2025-10-21 GPT Summary- OmniVinciは、視覚と音声を統合したオムニモーダルLLMを構築するプロジェクトであり、3つの革新(OmniAlignNet、Temporal Embedding Grouping、Constrained Rotary Time Embedding)を提案。2400万の会話データを用いて、モダリティ間の相互強化を実現。DailyOmni、MMAR、Video-MMEでの性能向上を達成し、トレーニングトークンの使用量を大幅に削減。ロボティクスや医療AIなどの応用におけるオムニモーダルの利点を示す。 Comment
pj page: https://nvlabs.github.io/OmniVinci/
元ポスト:
image, video, テキスト, 音声を理解しテキストを出力(TTSも可)するモデルに関する新たなアーキテクチャとデータキュレーションパイプラインを提案している模様
[Paper Note] Temporal Sampling for Forgotten Reasoning in LLMs, Yuetai Li+, arXiv'25, 2025.05
Paper/Blog Link My Issue
#NLP #LanguageModel #read-later Issue Date: 2025-05-27 GPT Summary- ファインチューニング中にLLMsが以前の正しい解法を忘れる「時間的忘却」を発見。これに対処するために「時間的サンプリング」というデコーディング戦略を導入し、複数のチェックポイントから出力を引き出すことで推論性能を向上。Pass@kで4から19ポイントの改善を達成し、LoRA適応モデルでも同様の利点を示す。時間的多様性を活用することで、LLMsの評価方法を再考する手段を提供。 Comment
元ポスト:
Temporal ForgettingとTemporal Sampling
[Paper Note] HLTCOE at TREC 2013: Temporal Summarization, Xu et al, TREC'13, 2014.02
Paper/Blog Link My Issue
#DocumentSummarization #NLP Issue Date: 2017-12-28
[Paper Note] BJUT at TREC 2013 Temporal Summarization Track, yang et al., TREC'13, 2014.02
Paper/Blog Link My Issue
#DocumentSummarization #NLP #KeyPoint Notes Issue Date: 2017-12-28 Comment
・次のモジュールにより構成される。Preprocess, Retrieval, Information expansion, Sentence choosing and ranking
・Preprocess: GPGファイルをTXTファイルに変換。indexをはる。
・Retrieval: 検索エンジンとしてLemur searchを使っている。クエリ拡張と単語の重み付けができるため。(DocumentをRetrievalする)
・Information Expansion: 検索結果を拡張するためにK-meansを用いる。
・Sentence choosing and ranking: クラスタリング後に異なるクラスタの中心から要約を構築する。
time factorとsimilarity factorによってsentenceがランク付けされる。(詳細なし)
・Retrievalにおいては主にTF-IDFとBM25を用いている。
・traditionalなretrieval methodだけではperform wellではないので、Information Expansionをする。k-meansをすることで、異なるイベントのトピックに基づいてクラスタを得ることができる。クラスタごとの中心のドキュメントのtop sentencesをとってきて、要約とする。最終的にイベントごとに50 sentencesを選択する。
・生成したSequential Update Summarizationからvalueを抜いてきて、Value Trackingをする。
・Updateの部分をどのように実装しているのか?
Marlin-2B, NemoStation, 2026.05
Paper/Blog Link My Issue
#Article #ComputerVision #VideoGeneration/Understandings #VisionLanguageModel #4D (Video) #reading #Grounding #Author Thread-Post Issue Date: 2026-05-27 Comment
元ポスト:
何が、いつ起きたかに答えるVideo VLMで、イベントごとのキャプションとtimestampのspanを出力してくれるようである。2Bモデルなので軽量である。
例は以下:
