Video

#ComputerVision #Pocket #NLP #LanguageModel #MulltiModal #SpeechProcessing #OpenWeight
Issue Date: 2025-03-31 Qwen2.5-Omni Technical Report, Jin Xu+, arXiv'25 Summaryマルチモーダルモデル「Qwen2.5-Omni」は、テキスト、画像、音声、動画を認識し、ストリーミング方式で自然な音声応答を生成する。音声と視覚エンコーダはブロック処理を用い、TMRoPEによる新しい位置埋め込みで音声と動画の同期を実現。Thinker-Talkerアーキテクチャにより、テキスト生成と音声出力を干渉なく行う。Qwen2.5-Omniは、エンドツーエンドで訓練され、音声指示に対する性能がテキスト入力と同等で、ストリーミングTalkerは既存手法を上回る自然さを持つ。 CommentQwen TeamによるマルチモーダルLLM。テキスト、画像、動画音声をinputとして受け取り、テキスト、音声をoutputする。
image

weight:https://huggingface.co/collections/Qwen/qwen25-omni-67de1e5f0f9464dc6314b36e元ポスト:https://www.linkedin.com/posts/niels-rogge-a3b7a3127_alibabas-qwen-team-has-done-it-again-this-activity-7311036679627132929-HUqy?utm_source=share&utm_medium=member_ios&rcm=ACoAACzQvjwB2FeLVE3yukDiUYtr5J4k-6nlNG4
#Article #Survey #CVPR
Issue Date: 2025-07-28 【学会聴講報告】CVPR2025からみるVision最先端トレンド, Yuki Ono (Sony Corporation), 2025.07 Comment関連:
・2098元ポスト:https://x.com/shion_honda/status/1949471555550929350?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q
#Article #RecommenderSystems #LanguageModel #SemanticID
Issue Date: 2025-07-17 LLM Recommendation Systems: AI Engineer World's Fair 2025, AI Engineer, 2025.07 Comment元ポスト:https://x.com/kazunori_279/status/1945644623474692103?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QセマンティックIDの実用例

#Article #ComputerVision #FoundationModel #OpenWeight Issue Date: 2025-06-12 V-JEPA 2, Meta, 2025.06 Comment元ポスト:https://x.com/mervenoyann/status/1932814909722800196?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QPhysical Reasoning Leaderboardなるもので現在トップな模様。

https://huggingface.co/spaces/facebook/physical_reasoning_leaderboard
#Article #Tutorial #Pretraining #Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) Issue Date: 2024-12-25 Stanford CS229 I Machine Learning I Building Large Language Models (LLMs), StanfordUnivercity, 2024.09 Commentスタンフォード大学によるLLM構築に関する講義。事前学習と事後学習両方ともカバーしているらしい。 #Article #Tutorial #VCS #git Issue Date: 2024-11-04 システム開発プロジェクト応用第一 第5,6回 Gitによるバージョン管理, 内田公太, 2020.01 CommentVCSの歴史から原理、実用的な使い方まで、Gitについて体系的にまとまっている。普段何気なく使っているが、改めて勉強すると、なるほど、と思うことが多い。

・VCSの歴史、モチベーション(複数並列するバージョンを適切に管理したい)
・ワークツリー、インデックス、リポジトリ(HEAD)の違い
・基本的なgitコマンドから、普段あまり使わないハンク(hunk)の選択的なaddなどのコマンド
・コミットオブジェクト(ワークツリーのスナップショットを保持したもの≠前回のコミットに対する差分)
・HEAD/Detached HEADの原理
・Gitタグ
・checkoutの原理(ワークツリーとインデックスをHEADの内容に更新する)
・ブランチ、ブランチとHEADの関係性
・マージ方式(2way マージ、3wayマージ)
 ・2wayマージは元ファイルを参照しないのでマージ時に特定の編集がなかったことになってしまう)
 ・3wayマージは元ファイルも見て差分を計算するのでこのようなことが起こらない
・競合の原理、競合解決時のファイル内容
 ・Fast-Forwardマージ(ポインタを動かすだけで事足りる場合に利用)
・cherry pick(任意のコミットをとってくる)
 ・(cherry pickを連続して利用する)リベース(ベースを付け替える操作)
 ・歴史を修正する
  ・git reflogで起点とするコミットIDを見つけ、git rebase -iでコミット順変更orメッセージ変更、git commit --amendでコミット修正
・状態のリセット
 ・soft: HEADを指定したコミットにリセット
 ・mixed: インデックスをリセット
 ・hard: インデックスとワークツリーをリセット
・git stash
・コミット粒度とメッセージ
 ・単一の関心事項のみを含むような粒度でコミットしよう(一言で説明できる粒度)
  ・cherry pickが容易になる
  ・別ブランチの脆弱性への対応のみを適用したい、など
  ・現在形で書く。そうすると、後からcherry pickするときに内容の判断をしやすい。
 神講義