Video


Paper/Blog Link My Issue
#ComputerVision #EfficiencyImprovement #Pocket #ImageSegmentation #SmallModel #OpenWeight #2D (Image) Issue Date: 2025-11-09 GPT Summary- SAM 2は動画セグメンテーションの基盤モデルであり、メモリバンクメカニズムを通じて性能を向上させています。本研究では、モバイルデバイス上での効率を高めるために、EdgeTAMを提案し、2D空間パーセプターを用いて計算コストを削減します。これにより、メモリの空間構造を保持しつつ、推論オーバーヘッドなしで性能を向上させる蒸留パイプラインも導入。EdgeTAMは複数のデータセットで高いJ&Fスコアを達成し、iPhone 15 Pro Maxで16 FPSで動作します。 Comment

元ポスト:

Loading…

SAM2より性能は少し劣るが、edge-deviceてわ動作可能で非常に高速なモデル(promptによって制御可能なsegmentation)とのこと
- [Paper Note] SAM 2: Segment Anything in Images and Videos, Nikhila Ravi+, ICLR'25, 2024.08




Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #LanguageModel #MultiModal #SpeechProcessing #OpenWeight Issue Date: 2025-03-31 GPT Summary- マルチモーダルモデル「Qwen2.5-Omni」は、テキスト、画像、音声、動画を認識し、ストリーミング方式で自然な音声応答を生成する。音声と視覚エンコーダはブロック処理を用い、TMRoPEによる新しい位置埋め込みで音声と動画の同期を実現。Thinker-Talkerアーキテクチャにより、テキスト生成と音声出力を干渉なく行う。Qwen2.5-Omniは、エンドツーエンドで訓練され、音声指示に対する性能がテキスト入力と同等で、ストリーミングTalkerは既存手法を上回る自然さを持つ。 Comment

Qwen TeamによるマルチモーダルLLM。テキスト、画像、動画音声をinputとして受け取り、テキスト、音声をoutputする。
image

weight: https://huggingface.co/collections/Qwen/qwen25-omni-67de1e5f0f9464dc6314b36e

元ポスト: https://www.linkedin.com/posts/niels-rogge-a3b7a3127_alibabas-qwen-team-has-done-it-again-this-activity-7311036679627132929-HUqy?utm_source=share&utm_medium=member_ios&rcm=ACoAACzQvjwB2FeLVE3yukDiUYtr5J4k-6nlNG4




Paper/Blog Link My Issue
#Article #Tutorial #VCS #git Issue Date: 2024-11-04 Comment

VCSの歴史から原理、実用的な使い方まで、Gitについて体系的にまとまっている。普段何気なく使っているが、改めて勉強すると、なるほど、と思うことが多い。

- VCSの歴史、モチベーション(複数並列するバージョンを適切に管理したい)
- ワークツリー、インデックス、リポジトリ(HEAD)の違い
- 基本的なgitコマンドから、普段あまり使わないハンク(hunk)の選択的なaddなどのコマンド
- コミットオブジェクト(ワークツリーのスナップショットを保持したもの≠前回のコミットに対する差分)
- HEAD/Detached HEADの原理
- Gitタグ
- checkoutの原理(ワークツリーとインデックスをHEADの内容に更新する)
- ブランチ、ブランチとHEADの関係性
- マージ方式(2way マージ、3wayマージ)
 - 2wayマージは元ファイルを参照しないのでマージ時に特定の編集がなかったことになってしまう)
 - 3wayマージは元ファイルも見て差分を計算するのでこのようなことが起こらない
- 競合の原理、競合解決時のファイル内容
 - Fast-Forwardマージ(ポインタを動かすだけで事足りる場合に利用)
- cherry pick(任意のコミットをとってくる)
 - (cherry pickを連続して利用する)リベース(ベースを付け替える操作)
 - 歴史を修正する
  - git reflogで起点とするコミットIDを見つけ、git rebase -iでコミット順変更orメッセージ変更、git commit --amendでコミット修正
- 状態のリセット
 - soft: HEADを指定したコミットにリセット
 - mixed: インデックスをリセット
 - hard: インデックスとワークツリーをリセット
- git stash
- コミット粒度とメッセージ
 - 単一の関心事項のみを含むような粒度でコミットしよう(一言で説明できる粒度)
  - cherry pickが容易になる
  - 別ブランチの脆弱性への対応のみを適用したい、など
  - 現在形で書く。そうすると、後からcherry pickするときに内容の判断をしやすい。
 

神講義