Videoに関する論文・技術記事メモの一覧

Video

[Paper Note] EdgeTAM: On-Device Track Anything Model, Chong Zhou+, arXiv'25, 2025.01

Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #Pocket #ImageSegmentation #SmallModel #OpenWeight #2D (Image) Issue Date: 2025-11-09 GPT Summary- SAM 2は動画セグメンテーションの基盤モデルであり、メモリバンクメカニズムを通じて性能を向上させています。本研究では、モバイルデバイス上での効率を高めるために、EdgeTAMを提案し、2D空間パーセプターを用いて計算コストを削減します。これにより、メモリの空間構造を保持しつつ、推論オーバーヘッドなしで性能を向上させる蒸留パイプラインも導入。EdgeTAMは複数のデータセットで高いJ&Fスコアを達成し、iPhone 15 Pro Maxで16 FPSで動作します。 Comment

元ポスト:

Loading…

SAM2より性能は少し劣るが、edge-deviceてわ動作可能で非常に高速なモデル（promptによって制御可能なsegmentation)とのこと
- [Paper Note] SAM 2: Segment Anything in Images and Videos, Nikhila Ravi+, ICLR'25, 2024.08

Qwen2.5-Omni Technical Report, Jin Xu+, arXiv'25

Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #LanguageModel #MultiModal #SpeechProcessing #OpenWeight Issue Date: 2025-03-31 GPT Summary- マルチモーダルモデル「Qwen2.5-Omni」は、テキスト、画像、音声、動画を認識し、ストリーミング方式で自然な音声応答を生成する。音声と視覚エンコーダはブロック処理を用い、TMRoPEによる新しい位置埋め込みで音声と動画の同期を実現。Thinker-Talkerアーキテクチャにより、テキスト生成と音声出力を干渉なく行う。Qwen2.5-Omniは、エンドツーエンドで訓練され、音声指示に対する性能がテキスト入力と同等で、ストリーミングTalkerは既存手法を上回る自然さを持つ。 Comment

Qwen TeamによるマルチモーダルLLM。テキスト、画像、動画音声をinputとして受け取り、テキスト、音声をoutputする。

weight: https://huggingface.co/collections/Qwen/qwen25-omni-67de1e5f0f9464dc6314b36e

元ポスト: https://www.linkedin.com/posts/niels-rogge-a3b7a3127_alibabas-qwen-team-has-done-it-again-this-activity-7311036679627132929-HUqy?utm_source=share&utm_medium=member_ios&rcm=ACoAACzQvjwB2FeLVE3yukDiUYtr5J4k-6nlNG4

【LLM強化学習④】強化学習のコツ（後編）, Yuu Jinnai, JSAI公式チャンネル

Paper/Blog Link My Issue
#Article #Tutorial #NLP #LanguageModel #ReinforcementLearning #read-later Issue Date: 2025-12-25 Comment

元ポスト:

Loading…

Lessons from the Trenches on Building Usable Coding Agents - Graham Neubig, Graham Neubig, 2025.11

Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Coding Issue Date: 2025-11-09 Comment

元ポスト:

Loading…

Building Brain-Like Memory for AI | LLM Agent Memory Systems, Adam Lucek, 2025.01

Paper/Blog Link My Issue
#Article #Tutorial #NLP #AIAgents #memory Issue Date: 2025-10-13 Comment

元ポスト:

Loading…

Shipping with Codex, OpenAI, 2025.10

Paper/Blog Link My Issue
#Article #NLP #AIAgents #GenerativeAI #Coding #SoftwareEngineering #One-Line Notes Issue Date: 2025-10-12 Comment

元ポスト:

Loading…

OpenAI内部で92%の技術スタッフがdailyで利用している、というマーケティングメッセージが非常に強力で、説得力を持たせていると感じる。

【論文解説】高速・高品質な生成を実現するFlow Map Models（Part 1: 概要編）, Masato Ishii （Sony AI）, 2025.09

Paper/Blog Link My Issue
#Article #Tutorial #ComputerVision #MachineLearning #read-later Issue Date: 2025-09-04

【学会聴講報告】CVPR2025からみるVision最先端トレンド, Yuki Ono （Sony Corporation）, 2025.07

Paper/Blog Link My Issue
#Article #Survey #CVPR Issue Date: 2025-07-28 Comment

関連:
- CVPR 2025 速報, Kataoka+, 2025.06

元ポスト:

Loading…

LLM Recommendation Systems: AI Engineer World's Fair 2025, AI Engineer, 2025.07

Paper/Blog Link My Issue
#Article #RecommenderSystems #LanguageModel #SemanticID Issue Date: 2025-07-17 Comment

元ポスト:

Loading…

セマンティックIDの実用例

V-JEPA 2, Meta, 2025.06

Paper/Blog Link My Issue
#Article #ComputerVision #FoundationModel #OpenWeight Issue Date: 2025-06-12 Comment

元ポスト:

Loading…

Physical Reasoning Leaderboardなるもので現在トップな模様。

https://huggingface.co/spaces/facebook/physical_reasoning_leaderboard

Stanford CS229 I Machine Learning I Building Large Language Models （LLMs）, StanfordUnivercity, 2024.09

Paper/Blog Link My Issue
#Article #Tutorial #Pretraining #Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) Issue Date: 2024-12-25 Comment

スタンフォード大学によるLLM構築に関する講義。事前学習と事後学習両方ともカバーしているらしい。

システム開発プロジェクト応用第一第5,6回 Gitによるバージョン管理, 内田公太, 2020.01

Paper/Blog Link My Issue
#Article #Tutorial #VCS #git Issue Date: 2024-11-04 Comment

VCSの歴史から原理、実用的な使い方まで、Gitについて体系的にまとまっている。普段何気なく使っているが、改めて勉強すると、なるほど、と思うことが多い。

- VCSの歴史、モチベーション（複数並列するバージョンを適切に管理したい）
- ワークツリー、インデックス、リポジトリ（HEAD）の違い
- 基本的なgitコマンドから、普段あまり使わないハンク（hunk）の選択的なaddなどのコマンド
- コミットオブジェクト（ワークツリーのスナップショットを保持したもの≠前回のコミットに対する差分）
- HEAD/Detached HEADの原理
- Gitタグ
- checkoutの原理（ワークツリーとインデックスをHEADの内容に更新する）
- ブランチ、ブランチとHEADの関係性
- マージ方式（2way マージ、3wayマージ）
　- 2wayマージは元ファイルを参照しないのでマージ時に特定の編集がなかったことになってしまう）
　- 3wayマージは元ファイルも見て差分を計算するのでこのようなことが起こらない
- 競合の原理、競合解決時のファイル内容
　- Fast-Forwardマージ（ポインタを動かすだけで事足りる場合に利用）
- cherry pick（任意のコミットをとってくる）
　- （cherry pickを連続して利用する）リベース（ベースを付け替える操作）
　- 歴史を修正する
　　- git reflogで起点とするコミットIDを見つけ、git rebase -iでコミット順変更orメッセージ変更、git commit --amendでコミット修正
- 状態のリセット
　- soft: HEADを指定したコミットにリセット
　- mixed: インデックスをリセット
　- hard: インデックスとワークツリーをリセット
- git stash
- コミット粒度とメッセージ
　- 単一の関心事項のみを含むような粒度でコミットしよう（一言で説明できる粒度）
　　- cherry pickが容易になる
　　- 別ブランチの脆弱性への対応のみを適用したい、など
　　- 現在形で書く。そうすると、後からcherry pickするときに内容の判断をしやすい。
　

神講義

Video

[Paper Note] EdgeTAM: On-Device Track Anything Model, Chong Zhou+, arXiv'25, 2025.01

Qwen2.5-Omni Technical Report, Jin Xu+, arXiv'25

【LLM強化学習④】強化学習のコツ（後編）, Yuu Jinnai, JSAI公式チャンネル

Lessons from the Trenches on Building Usable Coding Agents - Graham Neubig, Graham Neubig, 2025.11

Building Brain-Like Memory for AI | LLM Agent Memory Systems, Adam Lucek, 2025.01

Shipping with Codex, OpenAI, 2025.10

【論文解説】高速・高品質な生成を実現するFlow Map Models（Part 1: 概要編）, Masato Ishii （Sony AI）, 2025.09

【学会聴講報告】CVPR2025からみるVision最先端トレンド, Yuki Ono （Sony Corporation）, 2025.07

LLM Recommendation Systems: AI Engineer World's Fair 2025, AI Engineer, 2025.07

V-JEPA 2, Meta, 2025.06

Stanford CS229 I Machine Learning I Building Large Language Models （LLMs）, StanfordUnivercity, 2024.09

システム開発プロジェクト応用第一 第5,6回 Gitによるバージョン管理, 内田公太, 2020.01

システム開発プロジェクト応用第一第5,6回 Gitによるバージョン管理, 内田公太, 2020.01