ComputerVision
#Pocket#NLP#LanguageModel#MulltiModal#AudioProcessing#OpenWeightLLM#Video
Issue Date: 2025-03-31 Qwen2.5-Omni Technical Report, Jin Xu+, arXiv25 CommentQwen TeamによるマルチモーダルLLM。テキスト、画像、動画音声をinputとして受け取り、テキスト、音声をoutputする。
Issue Date: 2025-01-30 SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training, Tianzhe Chu+, arXiv25 Comment元ポスト:https://x.com/hillbig/status/1884731381517082668?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ...
Issue Date: 2025-03-31 Qwen2.5-Omni Technical Report, Jin Xu+, arXiv25 CommentQwen TeamによるマルチモーダルLLM。テキスト、画像、動画音声をinputとして受け取り、テキスト、音声をoutputする。
Issue Date: 2025-01-30 SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training, Tianzhe Chu+, arXiv25 Comment元ポスト:https://x.com/hillbig/status/1884731381517082668?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ...
#InformationRetrieval#NLP#Dataset#LanguageModel#RAG(RetrievalAugmentedGeneration)
Issue Date: 2024-12-16 VLR-Bench: Multilingual Benchmark Dataset for Vision-Language Retrieval Augmented Generation, Hyeonseok Lim+, arXiv24 CommentMultilingual VLMを用いたRAGのベンチマークデータセット ... #Tutorial#Pocket#DiffusionModel
Issue Date: 2024-11-17 Tutorial on Diffusion Models for Imaging and Vision, Stanley H. Chan, arXiv24 Commentいつか読まなければならない ... #Efficiency/SpeedUp#NLP#Transformer#MulltiModal#AudioProcessing#Architecture
Issue Date: 2024-11-12 Mixture-of-Transformers: A Sparse and Scalable Architecture for Multi-Modal Foundation Models, Weixin Liang+, arXiv24 Comment ... #MachineLearning#Pocket#Finetuning (SFT)#InstructionTuning#Adapter/LoRA#Catastrophic Forgetting
Issue Date: 2024-11-12 Online-LoRA: Task-free Online Continual Learning via Low Rank Adaptation, Xiwen Wei+, arXiv24 Comment ... #Pocket#Dataset
Issue Date: 2024-09-30 COM Kitchens: An Unedited Overhead-view Video Dataset as a Vision-Language Benchmark, Koki Maeda+, N_A, ECCV24 Commentとてもおもしろそう! ... #Pocket#NLP#Dataset#LanguageModel
Issue Date: 2024-09-30 What matters when building vision-language models?, Hugo Laurençon+, N_A, arXiv24 Comment元ポストにOpenVLMの進展の歴史が載っている。構築されたデータセットも公開される模様。元ポスト:https://x ... #Pocket#CLIP
Issue Date: 2024-09-30 Long-CLIP: Unlocking the Long-Text Capability of CLIP, Beichen Zhang+, N_A, ECCV24 #Pocket#DiffusionModel
Issue Date: 2024-09-01 Diffusion Models Are Real-Time Game Engines, Dani Valevski+, N_A, arXiv24 SummaryGameNGenは、ニューラルモデルによって完全に動作するゲームエンジンであり、高品質で長い軌跡上で複雑な環境とのリアルタイムインタラクションを可能にします。GameNGenは、単一のTPU上で秒間20フレーム以上でクラシックゲームDOOMをインタラクティブにシミュレートすることができます。次フレーム予測では、PSNRが29.4に達し、劣化JPEG圧縮と比較可能です。GameNGenは、2つの段階でトレーニングされます:(1)RLエージェントがゲームをプレイすることを学び、トレーニングセッションが記録され、(2)拡散モデルが過去のフレームとアクションのシーケンスに応じて次のフレームを生成するようにトレーニングされます。条件付きの拡張により、長い軌跡上で安定した自己回帰生成が可能となります。 CommentDiffusion Modelでゲーム映像を生成する取り組みらしい。ゲームのenvironmentに対して、ユーザのActionとframeの系列をエピソードとみなして生成するっぽい?project pageにデモがのっている https://gamengen.github.io/ ... #Pocket#NLP#LanguageModel#Chain-of-Thought
Issue Date: 2024-04-08 Visualization-of-Thought Elicits Spatial Reasoning in Large Language Models, Wenshan Wu+, N_A, arXiv24 SummaryLLMsの空間推論能力を向上させるために、Visualization-of-Thought(VoT)プロンプティングを提案。VoTは、LLMsの推論トレースを可視化し、空間推論タスクで使用することで、既存のMLLMsを上回る性能を示す。VoTは、空間推論を促進するために「メンタルイメージ」を生成する能力を持ち、MLLMsでの有効性を示唆する。 #Pocket#NLP#LanguageModel
Issue Date: 2024-03-21 Evolutionary Optimization of Model Merging Recipes, Takuya Akiba+, N_A, arXiv24 Summary進化アルゴリズムを使用した新しいアプローチを提案し、強力な基盤モデルの自動生成を実現。LLMの開発において、人間の直感やドメイン知識に依存せず、多様なオープンソースモデルの効果的な組み合わせを自動的に発見する。このアプローチは、日本語のLLMと数学推論能力を持つモデルなど、異なるドメイン間の統合を容易にし、日本語VLMの性能向上にも貢献。オープンソースコミュニティへの貢献と自動モデル構成の新しいパラダイム導入により、基盤モデル開発における効率的なアプローチを模索。 Comment複数のLLMを融合するモデルマージの話。日本語LLMと英語の数学LLNをマージさせることで日本語の数学性能を大幅に向上させたり、LLMとVLMを融合したりすることで、日本にしか存在しない概念の画像も、きちんと回答できるようになる。著者スライドによると、従来のモデルマージにはbase modelが著者 ... #NLP#LanguageModel#MulltiModal#AudioProcessing#AAAI
Issue Date: 2023-04-26 AudioGPT: Understanding and Generating Speech, Music, Sound, and Talking Head, AAAI24 Commenttext, audio, imageといったマルチモーダルなpromptから、audioに関する様々なタスクを実現できるシステムマルチモーダルデータをjointで学習したというわけではなく、色々なモデルの組み合わせてタスクを実現しているっぽい を使用して条件付きのグラフィックレイアウト生成を行う手法であり、入力-出力のシリアル化、動的な模範的選択、およびレイアウトのランキングの3つのコンポーネントで構成されています。LayoutPrompterは、既存の手法と競合したり上回ったりする性能を持ち、トレーニングや微調整なしで使用できる汎用性のあるアプローチであることが実験結果から示されています。また、データ効率にも優れており、トレーニングベースラインよりも有意に優れていることも示されています。プロジェクトは、https://github.com/microsoft/LayoutGeneration/tree/main/LayoutPrompterで利用可能です。 CommentConditional Graphic Layout Generation ... #Pocket#NLP#MultitaskLearning#MulltiModal#FoundationModel
Issue Date: 2023-11-13 Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks, Bin Xiao+, N_A, arXiv23 SummaryFlorence-2は、ビジョン基盤モデルであり、さまざまなビジョンタスクに対応するための統一されたプロンプトベースの表現を持っています。このモデルは、テキストプロンプトを受け取り、キャプショニング、オブジェクト検出、グラウンディング、セグメンテーションなどのタスクを実行し、テキスト形式で結果を生成します。また、FLD-5Bという大規模な注釈付きデータセットも開発されました。Florence-2は、多目的かつ包括的なビジョンタスクを実行するためにシーケンスツーシーケンス構造を採用しており、前例のないゼロショットおよびファインチューニングの能力を持つ強力なモデルです。 CommentVison Foundation Model。Spatialな階層構造や、Semanticを捉えられるように訓練。Image/Prompt Encoderでエンコードされ、outputはtext + location informationとなる。 ...
#Pocket#NLP#LanguageModel#MulltiModal
Issue Date: 2023-10-26 Exploring OCR Capabilities of GPT-4V(ision) : A Quantitative and In-depth Evaluation, Yongxin Shi+, N_A, arXiv23 Summaryこの論文では、GPT-4Vという大規模マルチモーダルモデルの光学文字認識(OCR)能力を評価します。さまざまなOCRタスクにおいてモデルのパフォーマンスを評価し、ラテン文字の認識と理解において優れた性能を示す一方、多言語や複雑なタスクには苦戦することがわかりました。これに基づいて、専門のOCRモデルの必要性やGPT-4Vを活用する戦略についても検討します。この研究は、将来のLMMを用いたOCRの研究に役立つものです。評価のパイプラインと結果は、GitHubで利用可能です。 CommentGPT4-VをさまざまなOCRタスク「手書き、数式、テーブル構造認識等を含む)で性能検証した研究。MLT19データセットを使った評価では、日本語の性能は非常に低く、英語とフランス語が性能高い。手書き文字認識では英語と中国語でのみ評価。 ...
#Pocket#NLP#LanguageModel#QuestionAnswering
Issue Date: 2023-10-09 Improved Baselines with Visual Instruction Tuning, Haotian Liu+, N_A, arXiv23 SummaryLLaVAは、ビジョンと言語のクロスモーダルコネクタであり、データ効率が高く強力な性能を持つことが示されています。CLIP-ViT-L-336pxを使用し、学術タスク指向のVQAデータを追加することで、11のベンチマークで最先端のベースラインを確立しました。13Bのチェックポイントはわずか120万の公開データを使用し、1日で完全なトレーニングを終えます。コードとモデルは公開されます。 Comment画像分析が可能なオープンソースLLMとのこと。# Overview 画像生成をできるわけではなく、inputとして画像を扱えるのみ。 ...
#Survey#FoundationModel
Issue Date: 2023-08-08 Foundational Models Defining a New Era in Vision: A Survey and Outlook, Muhammad Awais+, N_A, arXiv23 Summary本研究では、視覚システムの基礎モデルについて包括的なレビューを提供します。これには、異なるモダリティを組み合わせるためのアーキテクチャ設計やトレーニング目標、トレーニングデータセットなどが含まれます。また、基礎モデルの評価や課題、最近の発展についても議論します。詳細なリストは、\url{https://github.com/awaisrauf/Awesome-CV-Foundational-Models}で入手できます。 CommentCVにおけるfoundation modelのsurvey。残されたチャレンジと研究の方向性が議論されている ... #NaturalLanguageGeneration#NLP#Dataset#Evaluation
Issue Date: 2023-07-22 InfoMetIC: An Informative Metric for Reference-free Image Caption Evaluation, ACL23 Summary自動画像キャプションの評価には、情報豊かなメトリック(InfoMetIC)が提案されています。これにより、キャプションの誤りや欠落した情報を詳細に特定することができます。InfoMetICは、テキストの精度スコア、ビジョンの再現スコア、および全体の品質スコアを提供し、人間の判断との相関も高いです。また、トークンレベルの評価データセットも構築されています。詳細はGitHubで公開されています。 #Pocket#NLP#LanguageModel#LLMAgent
Issue Date: 2023-07-22 Towards A Unified Agent with Foundation Models, Norman Di Palo+, N_A, arXiv23 Summary本研究では、言語モデルとビジョン言語モデルを強化学習エージェントに組み込み、効率的な探索や経験データの再利用などの課題に取り組む方法を調査しました。スパースな報酬のロボット操作環境でのテストにおいて、ベースラインに比べて大幅な性能向上を実証し、学習済みのスキルを新しいタスクの解決や人間の専門家のビデオの模倣に活用する方法を示しました。 Comment ...
#Pocket#Personalization#DiffusionModel
Issue Date: 2023-07-22 FABRIC: Personalizing Diffusion Models with Iterative Feedback, Dimitri von Rütte+, N_A, arXiv23 Summary本研究では、拡散ベースのテキストから画像への変換モデルに人間のフィードバックを組み込む戦略を提案する。自己注意層を利用したトレーニングフリーなアプローチであるFABRICを提案し、さまざまな拡散モデルに適用可能であることを示す。また、包括的な評価方法を導入し、人間のフィードバックを統合した生成ビジュアルモデルのパフォーマンスを定量化するための堅牢なメカニズムを提供する。徹底的な分析により、反復的なフィードバックの複数のラウンドを通じて生成結果が改善されることを示す。これにより、個別化されたコンテンツ作成やカスタマイズなどの領域に応用が可能となる。 Commentupvote downvoteをフィードバックし、iterativeなmannerでDiffusionモデルの生成結果を改善できる手法。多くのDiffusion based Modelに対して適用可能デモ: https://huggingface.co/spaces/dvruette/fabric ... #Pocket#NLP#LanguageModel#SpokenLanguageProcessing#MulltiModal#AudioProcessing
Issue Date: 2023-07-22 Meta-Transformer: A Unified Framework for Multimodal Learning, Yiyuan Zhang+, N_A, arXiv23 Summary本研究では、マルチモーダル学習のためのMeta-Transformerというフレームワークを提案しています。このフレームワークは、異なるモダリティの情報を処理し関連付けるための統一されたネットワークを構築することを目指しています。Meta-Transformerは、対応のないデータを使用して12のモダリティ間で統一された学習を行うことができ、テキスト、画像、ポイントクラウド、音声、ビデオなどの基本的なパーセプションから、X線、赤外線、高分光、IMUなどの実用的なアプリケーション、グラフ、表形式、時系列などのデータマイニングまで、幅広いタスクを処理することができます。Meta-Transformerは、トランスフォーマーを用いた統一されたマルチモーダルインテリジェンスの開発に向けた有望な未来を示しています。 Comment12種類のモダリティに対して学習できるTransformerを提案Dataをsequenceにtokenizeし、unifiedにfeatureをencodingし、それぞれのdownstreamタスクで学習 ...
#NLP#Dataset#Personalization#MulltiModal#Conversation
Issue Date: 2023-07-15 MPCHAT: Towards Multimodal Persona-Grounded Conversation, ACL23 Summary本研究では、テキストと画像の両方を使用してパーソナを拡張し、マルチモーダルな対話エージェントを構築するためのデータセットであるMPCHATを提案します。さらに、マルチモーダルパーソナを組み込むことで、応答予測、パーソナのグラウンディング予測、話者の識別といったタスクのパフォーマンスを統計的に有意に改善できることを示します。この研究は、マルチモーダルな対話理解においてマルチモーダルパーソナの重要性を強調し、MPCHATが高品質なリソースとして役立つことを示しています。 #NaturalLanguageGeneration#NLP#LanguageModel#TabularData#TextToImageGeneration
Issue Date: 2023-07-15 Table and Image Generation for Investigating Knowledge of Entities in Pre-trained Vision and Language Models, ACL23 Summary本研究では、Vision&Language(V&L)モデルにおけるエンティティの知識の保持方法を検証するために、テーブルと画像の生成タスクを提案します。このタスクでは、エンティティと関連する画像の知識を含むテーブルを生成する第一の部分と、キャプションとエンティティの関連知識を含むテーブルから画像を生成する第二の部分があります。提案されたタスクを実行するために、Wikipediaの約20万のinfoboxからWikiTIGデータセットを作成しました。最先端のV&LモデルOFAを使用して、提案されたタスクのパフォーマンスを評価しました。実験結果は、OFAが一部のエンティティ知識を忘れることを示しています。 #NaturalLanguageGeneration#NLP#MulltiModal#DiffusionModel#TextToImageGeneration
Issue Date: 2023-07-15 Learning to Imagine: Visually-Augmented Natural Language Generation, ACL23 Summary本研究では、視覚情報を活用した自然言語生成のためのLIVEという手法を提案しています。LIVEは、事前学習済み言語モデルを使用して、テキストに基づいて場面を想像し、高品質な画像を合成する方法です。また、CLIPを使用してテキストの想像力を評価し、段落ごとに画像を生成します。さまざまな実験により、LIVEの有効性が示されています。コード、モデル、データは公開されています。 Comment>まず、テキストに基づいて場面を想像します。入力テキストに基づいて高品質な画像を合成するために拡散モデルを使用します。次に、CLIPを使用して、テキストが想像力を喚起できるかを事後的に判断します。最後に、私たちの想像力は動的であり、段落全体に1つの画像を生成するのではなく、各文に対して合成を行います ... #Pretraining#Pocket#NLP#Transformer#MulltiModal
Issue Date: 2023-07-12 Generative Pretraining in Multimodality, Quan Sun+, N_A, arXiv23 SummaryEmuは、マルチモーダルなコンテキストで画像とテキストを生成するためのTransformerベースのモデルです。このモデルは、単一モダリティまたはマルチモーダルなデータ入力を受け入れることができます。Emuは、マルチモーダルなシーケンスでトレーニングされ、画像からテキストへのタスクやテキストから画像へのタスクなど、さまざまなタスクで優れたパフォーマンスを示します。また、マルチモーダルアシスタントなどの拡張機能もサポートしています。 #Pretraining#Pocket#NLP#MulltiModal
Issue Date: 2023-07-12 EgoVLPv2: Egocentric Video-Language Pre-training with Fusion in the Backbone, Shraman Pramanick+, N_A, arXiv23 Summaryエゴセントリックビデオ言語の事前学習の第2世代(EgoVLPv2)は、ビデオと言語のバックボーンにクロスモーダルの融合を直接組み込むことができる。EgoVLPv2は強力なビデオテキスト表現を学習し、柔軟かつ効率的な方法でさまざまなダウンストリームタスクをサポートする。さらに、提案されたバックボーン戦略は軽量で計算効率が高い。EgoVLPv2は幅広いVLタスクで最先端のパフォーマンスを達成している。詳細はhttps://shramanpramanick.github.io/EgoVLPv2/を参照。 #FoundationModel#Navigation
Issue Date: 2023-07-11 ViNT: A Foundation Model for Visual Navigation, Dhruv Shah+, N_A, arXiv23 Summary本研究では、汎用事前学習モデルであるVisual Navigation Transformer(ViNT)を提案し、ビジョンベースのロボットナビゲーションに成功をもたらします。ViNTは、大規模なナビゲーションデータセットで訓練され、柔軟なTransformerベースのアーキテクチャを使用してさまざまなナビゲーションタスクに適応します。ViNTは、拡散ベースのサブゴール提案と組み合わせることで、新しい環境を探索し、キロメートルスケールのナビゲーション問題を解決することができます。また、ViNTはプロンプトチューニングに触発された技術を使用して、新しいタスク仕様に適応することができます。ViNTはモバイルロボティクスのための効果的な基礎モデルとして確立されています。詳細はプロジェクトページを参照してください。 Comment事前学習済みモデルを視覚ベースのロボットナビゲーションに活用するFoundation Model。FlexibleなTransformerベースのアーキテクチャに基づいて構築されており、さまざまなナビゲーションタスクに取り組むことが可能 ...
#LanguageModel#QuestionAnswering#MulltiModal
Issue Date: 2023-07-11 SPAE: Semantic Pyramid AutoEncoder for Multimodal Generation with Frozen LLMs, Lijun Yu+, N_A, arXiv23 Summaryこの研究では、Semantic Pyramid AutoEncoder(SPAE)を使用して、凍結されたLLMsが非言語的なモダリティを含むタスクを実行できるようにします。SPAEは、LLMの語彙から抽出されたトークンと生のピクセルデータの変換を行います。生成されたトークンは、視覚再構成に必要な意味と詳細を捉え、LLMが理解できる言語に変換します。実験結果では、我々のアプローチが画像理解と生成のタスクにおいて最先端のパフォーマンスを25%以上上回ることを示しています。 Comment画像をLLMのtokenスペースにマッピングすることで、LLMがパラメータの更新なしにvisual taskを解くことを可能にした。in context learningによって、様々なvisuataskを解くことができる。 ...
#LanguageModel#QuestionAnswering#MulltiModal
Issue Date: 2023-06-30 Towards Language Models That Can See: Computer Vision Through the LENS of Natural Language, William Berrios+, N_A, arXiv23 Summary私たちは、LENSというモジュラーなアプローチを提案しています。このアプローチでは、大規模言語モデル(LLMs)を使用してコンピュータビジョンの問題に取り組みます。LENSは、独立したビジョンモジュールの出力に対して言語モデルを使用して推論を行います。私たちは、ゼロショットおよびフューショットのオブジェクト認識などのコンピュータビジョンの設定でLENSを評価しました。LENSは市販のLLMに適用でき、非常に競争力のあるパフォーマンスを発揮します。コードはオープンソースで提供されています。 Comment参考: https://twitter.com/hillbig/status/1674878733264781312?s=46&t=KFT8cWTu8vV69iD6Qt0NGw ...
#Pocket#Personalization
Issue Date: 2023-06-16 Photoswap: Personalized Subject Swapping in Images, Jing Gu+, N_A, arXiv23 Summary本研究では、Photoswapという新しいアプローチを提案し、既存の画像において個人的な対象物の交換を可能にすることを目的としています。Photoswapは、参照画像から対象物の視覚的な概念を学習し、トレーニングフリーでターゲット画像に交換することができます。実験により、Photoswapが効果的で制御可能であり、ベースライン手法を大幅に上回る人間の評価を得ていることが示されました。Photoswapは、エンターテインメントからプロの編集まで幅広い応用可能性を持っています。 #Pocket#NLP#Personalization#DiffusionModel#TextToImageGeneration
Issue Date: 2023-06-16 ViCo: Detail-Preserving Visual Condition for Personalized Text-to-Image Generation, Shaozhe Hao+, N_A, arXiv23 Summary拡散モデルを用いたパーソナライズされた画像生成において、高速で軽量なプラグインメソッドであるViCoを提案。注目モジュールを導入し、注目ベースのオブジェクトマスクを使用することで、一般的な過学習の劣化を軽減。元の拡散モデルのパラメータを微調整せず、軽量なパラメータトレーニングだけで、最新のモデルと同等またはそれ以上の性能を発揮することができる。 #Pocket#NLP#QuestionAnswering#MulltiModal
Issue Date: 2023-06-16 AVIS: Autonomous Visual Information Seeking with Large Language Models, Ziniu Hu+, N_A, arXiv23 Summary本論文では、自律的な情報収集ビジュアル質問応答フレームワークであるAVISを提案する。AVISは、大規模言語モデル(LLM)を活用して外部ツールの利用戦略を動的に決定し、質問に対する回答に必要な不可欠な知識を獲得する。ユーザースタディを実施して収集したデータを用いて、プランナーや推論エンジンを改善し、知識集約型ビジュアル質問応答ベンチマークで最先端の結果を達成することを示している。 Comment ...
#Pocket#NeurIPS
Issue Date: 2023-04-27 Stable and low-precision training for large-scale vision-language models, Wortsman+, University of Washington, NeurIPS23 CommentWe introduce new methods for 1) acceler ... #ImageSegmentation#TechnicalReport
Issue Date: 2023-04-25 Track Anything: Segment Anything Meets Videos, yang+, SUSTech VIP Lab, arXiv23 CommentMetaのSAMを、videoに適用し、videow内のsegmentationを追加学習なしでやりました、という話だと思われる。 ... #NeuralNetwork#Pocket#SIGGRAPH
Issue Date: 2022-12-01 Sketch-Guided Text-to-Image Diffusion Models, Andrey+, Google Research, SIGGRAPH23 Commentスケッチとpromptを入力することで、スケッチ biasedな画像を生成することができる技術。すごい。 が優れているかを画像分類と言語モデルにおいて比較した研究(下記日本語解説記事から引用)日本語での解説: https://akichan-f.medium.com/optimizerはどれ ... #Pocket#NLP#CommentGeneration#CVPR
Issue Date: 2019-09-27 Attend to You: Personalized Image Captioning with Context Sequence Memory Networks, Park+, CVPR17 Comment画像が与えられたときに、その画像に対するHashtag predictionと、personalizedなpost generationを行うタスクを提案。 InstagramのPostの簡易化などに応用できる。 Postを生成するためには、自身の言葉で、画像についての説明や、contextといWe ... #NeuralNetwork#NaturalLanguageGeneration#NLP#ACL
Issue Date: 2017-12-31 Multi-Task Video Captioning with Video and Entailment Generation, Pasunuru+, ACL17 Comment解説スライド:https://www.slideshare.net/HangyoMasatsugu/hangyo-acl-paperreading2017multitask-video-captioning-with-video-and-entailment-generation/1multitas ... #NeuralNetwork#Visual Words#CVPR
Issue Date: 2017-12-28 Image Captioning with Semantic Attention, You+, CVPR16. Comment画像そのものだけでなく、モデルへのInputにVisual Wordsを明示的に加えることで、captioningの精度が上がりましたという論文 ... #NeuralNetwork#Visual Words#CVPR
Issue Date: 2017-12-28 What Value Do Explicit High Level Concepts Have in Vision to Language Problems?, Wu+, CVPR16. #NeuralNetwork#ECCV
Issue Date: 2017-12-28 Generating Visual Explanations, Hendrickks+, ECCV16 #DocumentSummarization#NaturalLanguageGeneration#Pocket#NLP#Evaluation#ImageCaptioning#Reference-based
Issue Date: 2023-05-10 CIDEr: Consensus-based Image Description Evaluation, Ramakrishna Vedantam+, N_A, CVPR15 Summary画像を文章で自動的に説明することは、長年の課題である。本研究では、人間の合意を利用した画像説明の評価のための新しいパラダイムを提案し、新しい自動評価指標と2つの新しいデータセットを含む。提案手法は、人間の判断をより正確に捉えることができ、5つの最先端の画像説明手法を評価し、将来の比較のためのベンチマークを提供する。CIDEr-Dは、MS COCO評価サーバーの一部として利用可能であり、システマティックな評価とベンチマークを可能にする。 #Article#NLP#LanguageModel#MulltiModal#OpenWeightLLM
Issue Date: 2025-03-25 Qwen2.5-VL-32B-Instruct, Qwen Team, 2025.03 Comment元ポスト:https://x.com/alibaba_qwen/status/1904227859616641534?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Article#Efficiency/SpeedUp#Pretraining#NLP#LanguageModel#Transformer#Finetuning (SFT)#MulltiModal#Article#SSM (StateSpaceModel)
Issue Date: 2025-03-24 Nemotron-H: A Family of Accurate, Efficient Hybrid Mamba-Transformer Models, Nvidia, 2025.03 Comment関連:#1820TransformerのSelf-attention LayerをMamba2 Layerに置換することで、様々なベンチマークで同等の性能、あるいは上回る性能で3倍程度のInference timeの高速化をしている(65536 input, 1024 output)。56B程度のm ... #Article#NLP#LanguageModel#MulltiModal#OpenWeightLLM
Issue Date: 2025-03-18 SmolDocling-256M, IBM Research, 2025.03 Comment元ポスト:https://www.linkedin.com/posts/andimarafioti_we-just-dropped-%F0%9D%97%A6%F0%9D%97%BA%F0%9D%97%BC%F0%9D%97%B9%F0%9D%97%97%F0%9D%97%BC%F0%9D%97%B0 ... #Article#NLP#LanguageModel#MulltiModal#ProprietaryLLM
Issue Date: 2025-03-17 ERNIE4.5_X1, Baidu, 2025.03 Comment解説ポスト:https://x.com/ai_for_success/status/1901149459826045223?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QERNIE4.5はGPT4.5をさまざまなベンチマークで上回り、価格がなんとGPT4.5の1%X1はマルチモーダルなr ... #Article#NLP#LanguageModel#MulltiModal#OpenWeightLLM
Issue Date: 2025-03-17 sarashina2-vision-{8b, 14b}, SB Intuitions, 2025.03 Comment元ポスト:https://x.com/sei_shinagawa/status/1901467733331701966?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QVLM。Xに散見される試行例を見ると日本語の読み取り性能は結構高そうに見える。モデル構成、学習の詳細、および評価:http ... #Article#NLP#LanguageModel#MulltiModal#OpenWeightLLM
Issue Date: 2025-01-28 Janus-Series: Unified Multimodal Understanding and Generation Models, DeepSeek, 2025.01 CommentDeepSeekによる新たなVLM、Janus-Proが本日リリース。MIT LicenseJanus-Proのパフォーマンス。github上でのパフォーマンスの図解から引用。マルチモーダル(テキスト+画像)の理解に関するベンチマークでLLaVA超え。GenEval, DPG Benchと呼ばれる画 ... #Article#NLP#Dataset#LanguageModel#Evaluation
Issue Date: 2025-01-25 Humanitys Last Exam, 2025.01 Commento1, DeepSeekR1の正解率が10%未満の新たなベンチマークBenchmarks are important tools for tracking the rapid advancements in large language model (LLM) capabilities. Howev ... #Article#NLP#Dataset#LanguageModel#Evaluation
Issue Date: 2025-01-05 Killed by LLM, R0bk CommentSaturationとなっているベンチマークは、最先端の性能をすでに測定できなくなってしまったベンチマークとのこと。 ... #Article#Survey#NLP#LanguageModel#OpenWeightLLM#ProprietaryLLM
Issue Date: 2025-01-02 2024-ai-timeline, reach-vb, 2025.01 Comment月別で2024年にリリースされた主要なLLM(マルチモーダルなLLMも含む)のタイムラインがまとめられている。API Only(プロプライエタリ)なのか、OpenWeightなのかもタグ付けされている。 ... #Article#NLP#LanguageModel#MulltiModal#FoundationModel#MultiLingual
Issue Date: 2024-12-04 Introducing Amazon Nova, our new generation of foundation models, AWS, 2024.12 Comment参考:https://qiita.com/ysit/items/8433d149dbaab702d526テクニカルレポート: https://assets.amazon.science/9f/a3/ae41627f4ab2bde091f1ebc6b830/the-amazon-nova-family ... #Article#Tutorial#NLP#SSM (StateSpaceModel)
Issue Date: 2024-11-27 チュートリアル:Mamba, Vision Mamba (Vim), Hironobu Fujiyoshi, 2024.11 #Article#Library#Repository
Issue Date: 2024-11-27 YomiToku, Kotaro Kinoshita, 2024.11 CommentいわゆるAI-OCRで、縦書きの認識も可能で、表などの構造化された情報も認識可能とのこと。手書きは認識できるのだろうか?CC BY-NC-SA 4.0元ツイート:https://x.com/kinocoai/status/1861386062175838303?s=46&t=Y6UuIHB0Lv0I ... #Article#Survey#Pocket#NLP#LanguageModel#Slide
Issue Date: 2024-11-18 Large Vision Language Model (LVLM)に関する知見まとめ, Daiki Shiono, 2024.11 #Article#GenerativeAI#OpenWeightLLM
Issue Date: 2024-10-05 MovieGen, Meta, 2024.10 #Article#Repository
Issue Date: 2024-09-30 ECCV2024-Papers-with-Code, 2024.09 CommentECCV2024の全体像を概観するのに有用以下、Claude 3.5 Sonnetに目次を入力し一言で各項目を説明させた内容。hallucinationがあるかもしれないので参考程度で。--------------------各項目の概要を一言で説明いたします:1. 3DGS(Gaussian Sp ... #Article#NLP#LanguageModel#OpenWeightLLM
Issue Date: 2024-09-27 Molmo, AI2, 2024.09 CommentMolmo is a family of open state-of-the-art multimodal AI models. Our most powerful model closes the gap between open and proprietary systems across a以 ... #Article#NLP#LanguageModel#Article#OpenWeightLLM
Issue Date: 2024-09-25 Llama 3.2: Revolutionizing edge AI and vision with open, customizable models, Meta, 2024.09 Comment11Bと90BのVLMと、エッジデバイス向けの1B, 3BのSLMを発表。。画像生成分野におけるTextual Inversionと同じ技術とのこと。Textual Inversionとは、少量の ... #Article#NLP#Prompting#MulltiModal#AutomaticPromptEngineering
Issue Date: 2023-12-01 multimodal-maestro CommentLarge Multimodal Model (LMM)において、雑なpromptを与えるても自動的に良い感じoutputを生成してくれるっぽい? 以下の例はリポジトリからの引用であるが、この例では、"Find dog." という雑なpromptから、画像中央に位置する犬に[9]というラベルを ...
#Article#NLP#GenerativeAI#MulltiModal
Issue Date: 2023-12-01 LaVie: Text-to-Video generation, demo Commentデモのデフォルトで試してみたら、3秒ほどのprompt通りの動画が生成された。FF14の赤魔導士に変えたら、それっぽいの出てきた ...
#Article#NLP#Transformer#TabularData
Issue Date: 2023-12-01 Table Transformer Demo CommentPDF中のテーブルとその構造(行列セル)をdetectするモデル Exampleは以下のような感じ(日本語だとどれくらいできるのかな...) ...
#Article#Survey#MachineLearning#NLP
Issue Date: 2023-11-22 ML Papers Explained Comment以下の分野の代表的な論文がまとめられている(基本的にはTransformer登場後のものが多い)言語モデル(Transformer, Elmoなど)Visionモデル(ViTなど)CNN(AlexNetなど)Single Stage Object DetectorsR ... #Article#Survey#NaturalLanguageGeneration#NLP#LanguageModel#ImageCaptioning#DiffusionModel
Issue Date: 2023-11-02 Zero-shot Learning網羅的サーベイ: CLIPが切り開いたVision & Languageの新しい世界 Commentこれはすごいまとめ…。まだ途中までしか読めていない。CLIPからスタートしてCLIPを引用している論文から重要なものを概要付きでまとめている。 ... #Article#NeuralNetwork#Efficiency/SpeedUp#NLP#LanguageModel#DiffusionModel#Article
Issue Date: 2023-10-29 StableDiffusion, LLMのGPUメモリ削減のあれこれ CommentGradient Accumulation, Gradient Checkpointingの説明が丁寧でわかりやすかった。 ... #Article#NLP#LanguageModel#ChatGPT#MulltiModal
Issue Date: 2023-09-30 GPT-4V Commentおう…やべえな… ...
#Article#NaturalLanguageGeneration#NLP#Article
Issue Date: 2023-08-16 走行動画を説明するLLMを作成し、80台のGPUで分散並列学習させた話 #Article#NLP#LanguageModel#FoundationModel
Issue Date: 2023-07-23 Introducing CM3leon, a more efficient, state-of-the-art generative model for text and images, 2023 Summary最近の自然言語処理の進歩により、生成型AIモデルへの関心と研究が加速しています。CM3leonは、テキストから画像への生成と画像からテキストへの生成を行う単一の基礎モデルです。 #Article#ImageCaptioning
Issue Date: 2023-07-22 Comparing captioning models CommentSoTAのvision languageモデルのデモ。BLIP, BLIP2,GIT,InstructBLIPを試せる ... #Article#FoundationModel#InductiveBias
Issue Date: 2023-07-12 Objaverse-XL: A Universe of 10M+ 3D Objects Comment10Mを超える3D objectのデータセットを公開し、3D Modelの基盤モデルとしてZero123-XLを訓練。元ツイートのGifがわかりやすい。https://twitter.com/mattdeitke/status/1678855859089326080?s=46&t=8VBxVyn ... #Article#Survey#NLP#LanguageModel#MulltiModal#AudioProcessing
Issue Date: 2023-07-03 Awesome Multimodal LLMs CommentマルチモーダルなLLMのリストがまとめられている ... #Article#MachineLearning#NLP#Library#Explanation#Transformer#Article
Issue Date: 2022-12-01 Transformers Interpret, 2022 Commenttransformersのモデルをたった2行追加するだけで、explainableにするライブラリ基本的にtextとvisionのclassificationをサポートしている模様text classificationの場合、たとえばinput tokenの各トークンの分類に対する寄与度をou ... #Article#NeuralNetwork#Tutorial
Issue Date: 2022-10-27 CNN vs. ViT, 牛久先生 Comment・Swin Transformer, Depth-wise conv, ConvNeXt, ViTとCNNのロバスト性の違いの話があり勉強になる ・最終的な結論が、CNNもTransformerも変わらない(明確な勝者はいない; 今のところ引き分け)というのはおもしろかったdepth-wise co ... #Article#NeuralNetwork#NeurIPS
Issue Date: 2021-11-04 ResNet strikes back: An improved training procedure in timm, Wightman+, NeurIPS‘21 Comment2015年以後、様々な最適化アルゴリズム、正則化手法、データ拡張などが提案される中で、最新アーキテクチャのモデルにはそれらが適用される一方ベースラインとなるResNetではそれらが適用されず、論文の値のみが参照される現状はフェアではないので、ResNetの性能を向上させるような訓練手法を追求した研究 ... #Article#NeuralNetwork#CVPR
Issue Date: 2021-11-04 Deep Residual Learning for Image Recognition, He+, Microsoft Research, CVPR’16 CommentResNet論文 ResNetでは、レイヤーの計算する関数を、残差F(x)と恒等関数xの和として定義する。これにより、レイヤーが入力との差分だけを学習すれば良くなり、モデルを深くしても最適化がしやすくなる効果ぎある。数レイヤーごとにResidual Connectionを導入し、恒等関数によるショ同 ... #Article#NeuralNetwork#Tutorial
Issue Date: 2021-05-24 EfficientNet解説 Comment既存画像認識モデルの構造は変化させず、広さ、深さ、解像度を複合スケーリングすることで、従来よりも少ないパラメータ数、かつ学習速度でSoTAを達成。広さ、深さ、解像度はそれぞれ性能に互いに影響しあっており、従来のように別々にスケーリングするのではなく、3つのバランスをとりながらスケーリングする。スケー ... #Article#NeuralNetwork#NLP
Issue Date: 2021-05-19 MLP-like Architecture CommentgMLP:大規模なself-attentionが無いSpatial Gating Unitを搭載したシンプルなMLPでも、Transformerの性能に近づけたよ(特にCV)。つまり、self-attentionはessentialというわけではなさそうだよ。NLPの場合はgMLPだとTransまあ ... #Article#Pocket#NLP#CommentGeneration
Issue Date: 2019-09-27 Cross-domain personalized image captioning, Long+, 2019
Issue Date: 2024-12-16 VLR-Bench: Multilingual Benchmark Dataset for Vision-Language Retrieval Augmented Generation, Hyeonseok Lim+, arXiv24 CommentMultilingual VLMを用いたRAGのベンチマークデータセット ... #Tutorial#Pocket#DiffusionModel
Issue Date: 2024-11-17 Tutorial on Diffusion Models for Imaging and Vision, Stanley H. Chan, arXiv24 Commentいつか読まなければならない ... #Efficiency/SpeedUp#NLP#Transformer#MulltiModal#AudioProcessing#Architecture
Issue Date: 2024-11-12 Mixture-of-Transformers: A Sparse and Scalable Architecture for Multi-Modal Foundation Models, Weixin Liang+, arXiv24 Comment ... #MachineLearning#Pocket#Finetuning (SFT)#InstructionTuning#Adapter/LoRA#Catastrophic Forgetting
Issue Date: 2024-11-12 Online-LoRA: Task-free Online Continual Learning via Low Rank Adaptation, Xiwen Wei+, arXiv24 Comment ... #Pocket#Dataset
Issue Date: 2024-09-30 COM Kitchens: An Unedited Overhead-view Video Dataset as a Vision-Language Benchmark, Koki Maeda+, N_A, ECCV24 Commentとてもおもしろそう! ... #Pocket#NLP#Dataset#LanguageModel
Issue Date: 2024-09-30 What matters when building vision-language models?, Hugo Laurençon+, N_A, arXiv24 Comment元ポストにOpenVLMの進展の歴史が載っている。構築されたデータセットも公開される模様。元ポスト:https://x ... #Pocket#CLIP
Issue Date: 2024-09-30 Long-CLIP: Unlocking the Long-Text Capability of CLIP, Beichen Zhang+, N_A, ECCV24 #Pocket#DiffusionModel
Issue Date: 2024-09-01 Diffusion Models Are Real-Time Game Engines, Dani Valevski+, N_A, arXiv24 SummaryGameNGenは、ニューラルモデルによって完全に動作するゲームエンジンであり、高品質で長い軌跡上で複雑な環境とのリアルタイムインタラクションを可能にします。GameNGenは、単一のTPU上で秒間20フレーム以上でクラシックゲームDOOMをインタラクティブにシミュレートすることができます。次フレーム予測では、PSNRが29.4に達し、劣化JPEG圧縮と比較可能です。GameNGenは、2つの段階でトレーニングされます:(1)RLエージェントがゲームをプレイすることを学び、トレーニングセッションが記録され、(2)拡散モデルが過去のフレームとアクションのシーケンスに応じて次のフレームを生成するようにトレーニングされます。条件付きの拡張により、長い軌跡上で安定した自己回帰生成が可能となります。 CommentDiffusion Modelでゲーム映像を生成する取り組みらしい。ゲームのenvironmentに対して、ユーザのActionとframeの系列をエピソードとみなして生成するっぽい?project pageにデモがのっている https://gamengen.github.io/ ... #Pocket#NLP#LanguageModel#Chain-of-Thought
Issue Date: 2024-04-08 Visualization-of-Thought Elicits Spatial Reasoning in Large Language Models, Wenshan Wu+, N_A, arXiv24 SummaryLLMsの空間推論能力を向上させるために、Visualization-of-Thought(VoT)プロンプティングを提案。VoTは、LLMsの推論トレースを可視化し、空間推論タスクで使用することで、既存のMLLMsを上回る性能を示す。VoTは、空間推論を促進するために「メンタルイメージ」を生成する能力を持ち、MLLMsでの有効性を示唆する。 #Pocket#NLP#LanguageModel
Issue Date: 2024-03-21 Evolutionary Optimization of Model Merging Recipes, Takuya Akiba+, N_A, arXiv24 Summary進化アルゴリズムを使用した新しいアプローチを提案し、強力な基盤モデルの自動生成を実現。LLMの開発において、人間の直感やドメイン知識に依存せず、多様なオープンソースモデルの効果的な組み合わせを自動的に発見する。このアプローチは、日本語のLLMと数学推論能力を持つモデルなど、異なるドメイン間の統合を容易にし、日本語VLMの性能向上にも貢献。オープンソースコミュニティへの貢献と自動モデル構成の新しいパラダイム導入により、基盤モデル開発における効率的なアプローチを模索。 Comment複数のLLMを融合するモデルマージの話。日本語LLMと英語の数学LLNをマージさせることで日本語の数学性能を大幅に向上させたり、LLMとVLMを融合したりすることで、日本にしか存在しない概念の画像も、きちんと回答できるようになる。著者スライドによると、従来のモデルマージにはbase modelが著者 ... #NLP#LanguageModel#MulltiModal#AudioProcessing#AAAI
Issue Date: 2023-04-26 AudioGPT: Understanding and Generating Speech, Music, Sound, and Talking Head, AAAI24 Commenttext, audio, imageといったマルチモーダルなpromptから、audioに関する様々なタスクを実現できるシステムマルチモーダルデータをjointで学習したというわけではなく、色々なモデルの組み合わせてタスクを実現しているっぽい を使用して条件付きのグラフィックレイアウト生成を行う手法であり、入力-出力のシリアル化、動的な模範的選択、およびレイアウトのランキングの3つのコンポーネントで構成されています。LayoutPrompterは、既存の手法と競合したり上回ったりする性能を持ち、トレーニングや微調整なしで使用できる汎用性のあるアプローチであることが実験結果から示されています。また、データ効率にも優れており、トレーニングベースラインよりも有意に優れていることも示されています。プロジェクトは、https://github.com/microsoft/LayoutGeneration/tree/main/LayoutPrompterで利用可能です。 CommentConditional Graphic Layout Generation ... #Pocket#NLP#MultitaskLearning#MulltiModal#FoundationModel
Issue Date: 2023-11-13 Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks, Bin Xiao+, N_A, arXiv23 SummaryFlorence-2は、ビジョン基盤モデルであり、さまざまなビジョンタスクに対応するための統一されたプロンプトベースの表現を持っています。このモデルは、テキストプロンプトを受け取り、キャプショニング、オブジェクト検出、グラウンディング、セグメンテーションなどのタスクを実行し、テキスト形式で結果を生成します。また、FLD-5Bという大規模な注釈付きデータセットも開発されました。Florence-2は、多目的かつ包括的なビジョンタスクを実行するためにシーケンスツーシーケンス構造を採用しており、前例のないゼロショットおよびファインチューニングの能力を持つ強力なモデルです。 CommentVison Foundation Model。Spatialな階層構造や、Semanticを捉えられるように訓練。Image/Prompt Encoderでエンコードされ、outputはtext + location informationとなる。 ...
Issue Date: 2023-10-26 Exploring OCR Capabilities of GPT-4V(ision) : A Quantitative and In-depth Evaluation, Yongxin Shi+, N_A, arXiv23 Summaryこの論文では、GPT-4Vという大規模マルチモーダルモデルの光学文字認識(OCR)能力を評価します。さまざまなOCRタスクにおいてモデルのパフォーマンスを評価し、ラテン文字の認識と理解において優れた性能を示す一方、多言語や複雑なタスクには苦戦することがわかりました。これに基づいて、専門のOCRモデルの必要性やGPT-4Vを活用する戦略についても検討します。この研究は、将来のLMMを用いたOCRの研究に役立つものです。評価のパイプラインと結果は、GitHubで利用可能です。 CommentGPT4-VをさまざまなOCRタスク「手書き、数式、テーブル構造認識等を含む)で性能検証した研究。MLT19データセットを使った評価では、日本語の性能は非常に低く、英語とフランス語が性能高い。手書き文字認識では英語と中国語でのみ評価。 ...
Issue Date: 2023-10-09 Improved Baselines with Visual Instruction Tuning, Haotian Liu+, N_A, arXiv23 SummaryLLaVAは、ビジョンと言語のクロスモーダルコネクタであり、データ効率が高く強力な性能を持つことが示されています。CLIP-ViT-L-336pxを使用し、学術タスク指向のVQAデータを追加することで、11のベンチマークで最先端のベースラインを確立しました。13Bのチェックポイントはわずか120万の公開データを使用し、1日で完全なトレーニングを終えます。コードとモデルは公開されます。 Comment画像分析が可能なオープンソースLLMとのこと。# Overview 画像生成をできるわけではなく、inputとして画像を扱えるのみ。 ...
Issue Date: 2023-08-08 Foundational Models Defining a New Era in Vision: A Survey and Outlook, Muhammad Awais+, N_A, arXiv23 Summary本研究では、視覚システムの基礎モデルについて包括的なレビューを提供します。これには、異なるモダリティを組み合わせるためのアーキテクチャ設計やトレーニング目標、トレーニングデータセットなどが含まれます。また、基礎モデルの評価や課題、最近の発展についても議論します。詳細なリストは、\url{https://github.com/awaisrauf/Awesome-CV-Foundational-Models}で入手できます。 CommentCVにおけるfoundation modelのsurvey。残されたチャレンジと研究の方向性が議論されている ... #NaturalLanguageGeneration#NLP#Dataset#Evaluation
Issue Date: 2023-07-22 InfoMetIC: An Informative Metric for Reference-free Image Caption Evaluation, ACL23 Summary自動画像キャプションの評価には、情報豊かなメトリック(InfoMetIC)が提案されています。これにより、キャプションの誤りや欠落した情報を詳細に特定することができます。InfoMetICは、テキストの精度スコア、ビジョンの再現スコア、および全体の品質スコアを提供し、人間の判断との相関も高いです。また、トークンレベルの評価データセットも構築されています。詳細はGitHubで公開されています。 #Pocket#NLP#LanguageModel#LLMAgent
Issue Date: 2023-07-22 Towards A Unified Agent with Foundation Models, Norman Di Palo+, N_A, arXiv23 Summary本研究では、言語モデルとビジョン言語モデルを強化学習エージェントに組み込み、効率的な探索や経験データの再利用などの課題に取り組む方法を調査しました。スパースな報酬のロボット操作環境でのテストにおいて、ベースラインに比べて大幅な性能向上を実証し、学習済みのスキルを新しいタスクの解決や人間の専門家のビデオの模倣に活用する方法を示しました。 Comment ...
Issue Date: 2023-07-22 FABRIC: Personalizing Diffusion Models with Iterative Feedback, Dimitri von Rütte+, N_A, arXiv23 Summary本研究では、拡散ベースのテキストから画像への変換モデルに人間のフィードバックを組み込む戦略を提案する。自己注意層を利用したトレーニングフリーなアプローチであるFABRICを提案し、さまざまな拡散モデルに適用可能であることを示す。また、包括的な評価方法を導入し、人間のフィードバックを統合した生成ビジュアルモデルのパフォーマンスを定量化するための堅牢なメカニズムを提供する。徹底的な分析により、反復的なフィードバックの複数のラウンドを通じて生成結果が改善されることを示す。これにより、個別化されたコンテンツ作成やカスタマイズなどの領域に応用が可能となる。 Commentupvote downvoteをフィードバックし、iterativeなmannerでDiffusionモデルの生成結果を改善できる手法。多くのDiffusion based Modelに対して適用可能デモ: https://huggingface.co/spaces/dvruette/fabric ... #Pocket#NLP#LanguageModel#SpokenLanguageProcessing#MulltiModal#AudioProcessing
Issue Date: 2023-07-22 Meta-Transformer: A Unified Framework for Multimodal Learning, Yiyuan Zhang+, N_A, arXiv23 Summary本研究では、マルチモーダル学習のためのMeta-Transformerというフレームワークを提案しています。このフレームワークは、異なるモダリティの情報を処理し関連付けるための統一されたネットワークを構築することを目指しています。Meta-Transformerは、対応のないデータを使用して12のモダリティ間で統一された学習を行うことができ、テキスト、画像、ポイントクラウド、音声、ビデオなどの基本的なパーセプションから、X線、赤外線、高分光、IMUなどの実用的なアプリケーション、グラフ、表形式、時系列などのデータマイニングまで、幅広いタスクを処理することができます。Meta-Transformerは、トランスフォーマーを用いた統一されたマルチモーダルインテリジェンスの開発に向けた有望な未来を示しています。 Comment12種類のモダリティに対して学習できるTransformerを提案Dataをsequenceにtokenizeし、unifiedにfeatureをencodingし、それぞれのdownstreamタスクで学習 ...
Issue Date: 2023-07-15 MPCHAT: Towards Multimodal Persona-Grounded Conversation, ACL23 Summary本研究では、テキストと画像の両方を使用してパーソナを拡張し、マルチモーダルな対話エージェントを構築するためのデータセットであるMPCHATを提案します。さらに、マルチモーダルパーソナを組み込むことで、応答予測、パーソナのグラウンディング予測、話者の識別といったタスクのパフォーマンスを統計的に有意に改善できることを示します。この研究は、マルチモーダルな対話理解においてマルチモーダルパーソナの重要性を強調し、MPCHATが高品質なリソースとして役立つことを示しています。 #NaturalLanguageGeneration#NLP#LanguageModel#TabularData#TextToImageGeneration
Issue Date: 2023-07-15 Table and Image Generation for Investigating Knowledge of Entities in Pre-trained Vision and Language Models, ACL23 Summary本研究では、Vision&Language(V&L)モデルにおけるエンティティの知識の保持方法を検証するために、テーブルと画像の生成タスクを提案します。このタスクでは、エンティティと関連する画像の知識を含むテーブルを生成する第一の部分と、キャプションとエンティティの関連知識を含むテーブルから画像を生成する第二の部分があります。提案されたタスクを実行するために、Wikipediaの約20万のinfoboxからWikiTIGデータセットを作成しました。最先端のV&LモデルOFAを使用して、提案されたタスクのパフォーマンスを評価しました。実験結果は、OFAが一部のエンティティ知識を忘れることを示しています。 #NaturalLanguageGeneration#NLP#MulltiModal#DiffusionModel#TextToImageGeneration
Issue Date: 2023-07-15 Learning to Imagine: Visually-Augmented Natural Language Generation, ACL23 Summary本研究では、視覚情報を活用した自然言語生成のためのLIVEという手法を提案しています。LIVEは、事前学習済み言語モデルを使用して、テキストに基づいて場面を想像し、高品質な画像を合成する方法です。また、CLIPを使用してテキストの想像力を評価し、段落ごとに画像を生成します。さまざまな実験により、LIVEの有効性が示されています。コード、モデル、データは公開されています。 Comment>まず、テキストに基づいて場面を想像します。入力テキストに基づいて高品質な画像を合成するために拡散モデルを使用します。次に、CLIPを使用して、テキストが想像力を喚起できるかを事後的に判断します。最後に、私たちの想像力は動的であり、段落全体に1つの画像を生成するのではなく、各文に対して合成を行います ... #Pretraining#Pocket#NLP#Transformer#MulltiModal
Issue Date: 2023-07-12 Generative Pretraining in Multimodality, Quan Sun+, N_A, arXiv23 SummaryEmuは、マルチモーダルなコンテキストで画像とテキストを生成するためのTransformerベースのモデルです。このモデルは、単一モダリティまたはマルチモーダルなデータ入力を受け入れることができます。Emuは、マルチモーダルなシーケンスでトレーニングされ、画像からテキストへのタスクやテキストから画像へのタスクなど、さまざまなタスクで優れたパフォーマンスを示します。また、マルチモーダルアシスタントなどの拡張機能もサポートしています。 #Pretraining#Pocket#NLP#MulltiModal
Issue Date: 2023-07-12 EgoVLPv2: Egocentric Video-Language Pre-training with Fusion in the Backbone, Shraman Pramanick+, N_A, arXiv23 Summaryエゴセントリックビデオ言語の事前学習の第2世代(EgoVLPv2)は、ビデオと言語のバックボーンにクロスモーダルの融合を直接組み込むことができる。EgoVLPv2は強力なビデオテキスト表現を学習し、柔軟かつ効率的な方法でさまざまなダウンストリームタスクをサポートする。さらに、提案されたバックボーン戦略は軽量で計算効率が高い。EgoVLPv2は幅広いVLタスクで最先端のパフォーマンスを達成している。詳細はhttps://shramanpramanick.github.io/EgoVLPv2/を参照。 #FoundationModel#Navigation
Issue Date: 2023-07-11 ViNT: A Foundation Model for Visual Navigation, Dhruv Shah+, N_A, arXiv23 Summary本研究では、汎用事前学習モデルであるVisual Navigation Transformer(ViNT)を提案し、ビジョンベースのロボットナビゲーションに成功をもたらします。ViNTは、大規模なナビゲーションデータセットで訓練され、柔軟なTransformerベースのアーキテクチャを使用してさまざまなナビゲーションタスクに適応します。ViNTは、拡散ベースのサブゴール提案と組み合わせることで、新しい環境を探索し、キロメートルスケールのナビゲーション問題を解決することができます。また、ViNTはプロンプトチューニングに触発された技術を使用して、新しいタスク仕様に適応することができます。ViNTはモバイルロボティクスのための効果的な基礎モデルとして確立されています。詳細はプロジェクトページを参照してください。 Comment事前学習済みモデルを視覚ベースのロボットナビゲーションに活用するFoundation Model。FlexibleなTransformerベースのアーキテクチャに基づいて構築されており、さまざまなナビゲーションタスクに取り組むことが可能 ...
Issue Date: 2023-07-11 SPAE: Semantic Pyramid AutoEncoder for Multimodal Generation with Frozen LLMs, Lijun Yu+, N_A, arXiv23 Summaryこの研究では、Semantic Pyramid AutoEncoder(SPAE)を使用して、凍結されたLLMsが非言語的なモダリティを含むタスクを実行できるようにします。SPAEは、LLMの語彙から抽出されたトークンと生のピクセルデータの変換を行います。生成されたトークンは、視覚再構成に必要な意味と詳細を捉え、LLMが理解できる言語に変換します。実験結果では、我々のアプローチが画像理解と生成のタスクにおいて最先端のパフォーマンスを25%以上上回ることを示しています。 Comment画像をLLMのtokenスペースにマッピングすることで、LLMがパラメータの更新なしにvisual taskを解くことを可能にした。in context learningによって、様々なvisuataskを解くことができる。 ...
Issue Date: 2023-06-30 Towards Language Models That Can See: Computer Vision Through the LENS of Natural Language, William Berrios+, N_A, arXiv23 Summary私たちは、LENSというモジュラーなアプローチを提案しています。このアプローチでは、大規模言語モデル(LLMs)を使用してコンピュータビジョンの問題に取り組みます。LENSは、独立したビジョンモジュールの出力に対して言語モデルを使用して推論を行います。私たちは、ゼロショットおよびフューショットのオブジェクト認識などのコンピュータビジョンの設定でLENSを評価しました。LENSは市販のLLMに適用でき、非常に競争力のあるパフォーマンスを発揮します。コードはオープンソースで提供されています。 Comment参考: https://twitter.com/hillbig/status/1674878733264781312?s=46&t=KFT8cWTu8vV69iD6Qt0NGw ...
Issue Date: 2023-06-16 Photoswap: Personalized Subject Swapping in Images, Jing Gu+, N_A, arXiv23 Summary本研究では、Photoswapという新しいアプローチを提案し、既存の画像において個人的な対象物の交換を可能にすることを目的としています。Photoswapは、参照画像から対象物の視覚的な概念を学習し、トレーニングフリーでターゲット画像に交換することができます。実験により、Photoswapが効果的で制御可能であり、ベースライン手法を大幅に上回る人間の評価を得ていることが示されました。Photoswapは、エンターテインメントからプロの編集まで幅広い応用可能性を持っています。 #Pocket#NLP#Personalization#DiffusionModel#TextToImageGeneration
Issue Date: 2023-06-16 ViCo: Detail-Preserving Visual Condition for Personalized Text-to-Image Generation, Shaozhe Hao+, N_A, arXiv23 Summary拡散モデルを用いたパーソナライズされた画像生成において、高速で軽量なプラグインメソッドであるViCoを提案。注目モジュールを導入し、注目ベースのオブジェクトマスクを使用することで、一般的な過学習の劣化を軽減。元の拡散モデルのパラメータを微調整せず、軽量なパラメータトレーニングだけで、最新のモデルと同等またはそれ以上の性能を発揮することができる。 #Pocket#NLP#QuestionAnswering#MulltiModal
Issue Date: 2023-06-16 AVIS: Autonomous Visual Information Seeking with Large Language Models, Ziniu Hu+, N_A, arXiv23 Summary本論文では、自律的な情報収集ビジュアル質問応答フレームワークであるAVISを提案する。AVISは、大規模言語モデル(LLM)を活用して外部ツールの利用戦略を動的に決定し、質問に対する回答に必要な不可欠な知識を獲得する。ユーザースタディを実施して収集したデータを用いて、プランナーや推論エンジンを改善し、知識集約型ビジュアル質問応答ベンチマークで最先端の結果を達成することを示している。 Comment ...
Issue Date: 2023-04-27 Stable and low-precision training for large-scale vision-language models, Wortsman+, University of Washington, NeurIPS23 CommentWe introduce new methods for 1) acceler ... #ImageSegmentation#TechnicalReport
Issue Date: 2023-04-25 Track Anything: Segment Anything Meets Videos, yang+, SUSTech VIP Lab, arXiv23 CommentMetaのSAMを、videoに適用し、videow内のsegmentationを追加学習なしでやりました、という話だと思われる。 ... #NeuralNetwork#Pocket#SIGGRAPH
Issue Date: 2022-12-01 Sketch-Guided Text-to-Image Diffusion Models, Andrey+, Google Research, SIGGRAPH23 Commentスケッチとpromptを入力することで、スケッチ biasedな画像を生成することができる技術。すごい。 が優れているかを画像分類と言語モデルにおいて比較した研究(下記日本語解説記事から引用)日本語での解説: https://akichan-f.medium.com/optimizerはどれ ... #Pocket#NLP#CommentGeneration#CVPR
Issue Date: 2019-09-27 Attend to You: Personalized Image Captioning with Context Sequence Memory Networks, Park+, CVPR17 Comment画像が与えられたときに、その画像に対するHashtag predictionと、personalizedなpost generationを行うタスクを提案。 InstagramのPostの簡易化などに応用できる。 Postを生成するためには、自身の言葉で、画像についての説明や、contextといWe ... #NeuralNetwork#NaturalLanguageGeneration#NLP#ACL
Issue Date: 2017-12-31 Multi-Task Video Captioning with Video and Entailment Generation, Pasunuru+, ACL17 Comment解説スライド:https://www.slideshare.net/HangyoMasatsugu/hangyo-acl-paperreading2017multitask-video-captioning-with-video-and-entailment-generation/1multitas ... #NeuralNetwork#Visual Words#CVPR
Issue Date: 2017-12-28 Image Captioning with Semantic Attention, You+, CVPR16. Comment画像そのものだけでなく、モデルへのInputにVisual Wordsを明示的に加えることで、captioningの精度が上がりましたという論文 ... #NeuralNetwork#Visual Words#CVPR
Issue Date: 2017-12-28 What Value Do Explicit High Level Concepts Have in Vision to Language Problems?, Wu+, CVPR16. #NeuralNetwork#ECCV
Issue Date: 2017-12-28 Generating Visual Explanations, Hendrickks+, ECCV16 #DocumentSummarization#NaturalLanguageGeneration#Pocket#NLP#Evaluation#ImageCaptioning#Reference-based
Issue Date: 2023-05-10 CIDEr: Consensus-based Image Description Evaluation, Ramakrishna Vedantam+, N_A, CVPR15 Summary画像を文章で自動的に説明することは、長年の課題である。本研究では、人間の合意を利用した画像説明の評価のための新しいパラダイムを提案し、新しい自動評価指標と2つの新しいデータセットを含む。提案手法は、人間の判断をより正確に捉えることができ、5つの最先端の画像説明手法を評価し、将来の比較のためのベンチマークを提供する。CIDEr-Dは、MS COCO評価サーバーの一部として利用可能であり、システマティックな評価とベンチマークを可能にする。 #Article#NLP#LanguageModel#MulltiModal#OpenWeightLLM
Issue Date: 2025-03-25 Qwen2.5-VL-32B-Instruct, Qwen Team, 2025.03 Comment元ポスト:https://x.com/alibaba_qwen/status/1904227859616641534?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Article#Efficiency/SpeedUp#Pretraining#NLP#LanguageModel#Transformer#Finetuning (SFT)#MulltiModal#Article#SSM (StateSpaceModel)
Issue Date: 2025-03-24 Nemotron-H: A Family of Accurate, Efficient Hybrid Mamba-Transformer Models, Nvidia, 2025.03 Comment関連:#1820TransformerのSelf-attention LayerをMamba2 Layerに置換することで、様々なベンチマークで同等の性能、あるいは上回る性能で3倍程度のInference timeの高速化をしている(65536 input, 1024 output)。56B程度のm ... #Article#NLP#LanguageModel#MulltiModal#OpenWeightLLM
Issue Date: 2025-03-18 SmolDocling-256M, IBM Research, 2025.03 Comment元ポスト:https://www.linkedin.com/posts/andimarafioti_we-just-dropped-%F0%9D%97%A6%F0%9D%97%BA%F0%9D%97%BC%F0%9D%97%B9%F0%9D%97%97%F0%9D%97%BC%F0%9D%97%B0 ... #Article#NLP#LanguageModel#MulltiModal#ProprietaryLLM
Issue Date: 2025-03-17 ERNIE4.5_X1, Baidu, 2025.03 Comment解説ポスト:https://x.com/ai_for_success/status/1901149459826045223?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QERNIE4.5はGPT4.5をさまざまなベンチマークで上回り、価格がなんとGPT4.5の1%X1はマルチモーダルなr ... #Article#NLP#LanguageModel#MulltiModal#OpenWeightLLM
Issue Date: 2025-03-17 sarashina2-vision-{8b, 14b}, SB Intuitions, 2025.03 Comment元ポスト:https://x.com/sei_shinagawa/status/1901467733331701966?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QVLM。Xに散見される試行例を見ると日本語の読み取り性能は結構高そうに見える。モデル構成、学習の詳細、および評価:http ... #Article#NLP#LanguageModel#MulltiModal#OpenWeightLLM
Issue Date: 2025-01-28 Janus-Series: Unified Multimodal Understanding and Generation Models, DeepSeek, 2025.01 CommentDeepSeekによる新たなVLM、Janus-Proが本日リリース。MIT LicenseJanus-Proのパフォーマンス。github上でのパフォーマンスの図解から引用。マルチモーダル(テキスト+画像)の理解に関するベンチマークでLLaVA超え。GenEval, DPG Benchと呼ばれる画 ... #Article#NLP#Dataset#LanguageModel#Evaluation
Issue Date: 2025-01-25 Humanitys Last Exam, 2025.01 Commento1, DeepSeekR1の正解率が10%未満の新たなベンチマークBenchmarks are important tools for tracking the rapid advancements in large language model (LLM) capabilities. Howev ... #Article#NLP#Dataset#LanguageModel#Evaluation
Issue Date: 2025-01-05 Killed by LLM, R0bk CommentSaturationとなっているベンチマークは、最先端の性能をすでに測定できなくなってしまったベンチマークとのこと。 ... #Article#Survey#NLP#LanguageModel#OpenWeightLLM#ProprietaryLLM
Issue Date: 2025-01-02 2024-ai-timeline, reach-vb, 2025.01 Comment月別で2024年にリリースされた主要なLLM(マルチモーダルなLLMも含む)のタイムラインがまとめられている。API Only(プロプライエタリ)なのか、OpenWeightなのかもタグ付けされている。 ... #Article#NLP#LanguageModel#MulltiModal#FoundationModel#MultiLingual
Issue Date: 2024-12-04 Introducing Amazon Nova, our new generation of foundation models, AWS, 2024.12 Comment参考:https://qiita.com/ysit/items/8433d149dbaab702d526テクニカルレポート: https://assets.amazon.science/9f/a3/ae41627f4ab2bde091f1ebc6b830/the-amazon-nova-family ... #Article#Tutorial#NLP#SSM (StateSpaceModel)
Issue Date: 2024-11-27 チュートリアル:Mamba, Vision Mamba (Vim), Hironobu Fujiyoshi, 2024.11 #Article#Library#Repository
Issue Date: 2024-11-27 YomiToku, Kotaro Kinoshita, 2024.11 CommentいわゆるAI-OCRで、縦書きの認識も可能で、表などの構造化された情報も認識可能とのこと。手書きは認識できるのだろうか?CC BY-NC-SA 4.0元ツイート:https://x.com/kinocoai/status/1861386062175838303?s=46&t=Y6UuIHB0Lv0I ... #Article#Survey#Pocket#NLP#LanguageModel#Slide
Issue Date: 2024-11-18 Large Vision Language Model (LVLM)に関する知見まとめ, Daiki Shiono, 2024.11 #Article#GenerativeAI#OpenWeightLLM
Issue Date: 2024-10-05 MovieGen, Meta, 2024.10 #Article#Repository
Issue Date: 2024-09-30 ECCV2024-Papers-with-Code, 2024.09 CommentECCV2024の全体像を概観するのに有用以下、Claude 3.5 Sonnetに目次を入力し一言で各項目を説明させた内容。hallucinationがあるかもしれないので参考程度で。--------------------各項目の概要を一言で説明いたします:1. 3DGS(Gaussian Sp ... #Article#NLP#LanguageModel#OpenWeightLLM
Issue Date: 2024-09-27 Molmo, AI2, 2024.09 CommentMolmo is a family of open state-of-the-art multimodal AI models. Our most powerful model closes the gap between open and proprietary systems across a以 ... #Article#NLP#LanguageModel#Article#OpenWeightLLM
Issue Date: 2024-09-25 Llama 3.2: Revolutionizing edge AI and vision with open, customizable models, Meta, 2024.09 Comment11Bと90BのVLMと、エッジデバイス向けの1B, 3BのSLMを発表。。画像生成分野におけるTextual Inversionと同じ技術とのこと。Textual Inversionとは、少量の ... #Article#NLP#Prompting#MulltiModal#AutomaticPromptEngineering
Issue Date: 2023-12-01 multimodal-maestro CommentLarge Multimodal Model (LMM)において、雑なpromptを与えるても自動的に良い感じoutputを生成してくれるっぽい? 以下の例はリポジトリからの引用であるが、この例では、"Find dog." という雑なpromptから、画像中央に位置する犬に[9]というラベルを ...
Issue Date: 2023-12-01 LaVie: Text-to-Video generation, demo Commentデモのデフォルトで試してみたら、3秒ほどのprompt通りの動画が生成された。FF14の赤魔導士に変えたら、それっぽいの出てきた ...
Issue Date: 2023-12-01 Table Transformer Demo CommentPDF中のテーブルとその構造(行列セル)をdetectするモデル Exampleは以下のような感じ(日本語だとどれくらいできるのかな...) ...
Issue Date: 2023-11-22 ML Papers Explained Comment以下の分野の代表的な論文がまとめられている(基本的にはTransformer登場後のものが多い)言語モデル(Transformer, Elmoなど)Visionモデル(ViTなど)CNN(AlexNetなど)Single Stage Object DetectorsR ... #Article#Survey#NaturalLanguageGeneration#NLP#LanguageModel#ImageCaptioning#DiffusionModel
Issue Date: 2023-11-02 Zero-shot Learning網羅的サーベイ: CLIPが切り開いたVision & Languageの新しい世界 Commentこれはすごいまとめ…。まだ途中までしか読めていない。CLIPからスタートしてCLIPを引用している論文から重要なものを概要付きでまとめている。 ... #Article#NeuralNetwork#Efficiency/SpeedUp#NLP#LanguageModel#DiffusionModel#Article
Issue Date: 2023-10-29 StableDiffusion, LLMのGPUメモリ削減のあれこれ CommentGradient Accumulation, Gradient Checkpointingの説明が丁寧でわかりやすかった。 ... #Article#NLP#LanguageModel#ChatGPT#MulltiModal
Issue Date: 2023-09-30 GPT-4V Commentおう…やべえな… ...
Issue Date: 2023-08-16 走行動画を説明するLLMを作成し、80台のGPUで分散並列学習させた話 #Article#NLP#LanguageModel#FoundationModel
Issue Date: 2023-07-23 Introducing CM3leon, a more efficient, state-of-the-art generative model for text and images, 2023 Summary最近の自然言語処理の進歩により、生成型AIモデルへの関心と研究が加速しています。CM3leonは、テキストから画像への生成と画像からテキストへの生成を行う単一の基礎モデルです。 #Article#ImageCaptioning
Issue Date: 2023-07-22 Comparing captioning models CommentSoTAのvision languageモデルのデモ。BLIP, BLIP2,GIT,InstructBLIPを試せる ... #Article#FoundationModel#InductiveBias
Issue Date: 2023-07-12 Objaverse-XL: A Universe of 10M+ 3D Objects Comment10Mを超える3D objectのデータセットを公開し、3D Modelの基盤モデルとしてZero123-XLを訓練。元ツイートのGifがわかりやすい。https://twitter.com/mattdeitke/status/1678855859089326080?s=46&t=8VBxVyn ... #Article#Survey#NLP#LanguageModel#MulltiModal#AudioProcessing
Issue Date: 2023-07-03 Awesome Multimodal LLMs CommentマルチモーダルなLLMのリストがまとめられている ... #Article#MachineLearning#NLP#Library#Explanation#Transformer#Article
Issue Date: 2022-12-01 Transformers Interpret, 2022 Commenttransformersのモデルをたった2行追加するだけで、explainableにするライブラリ基本的にtextとvisionのclassificationをサポートしている模様text classificationの場合、たとえばinput tokenの各トークンの分類に対する寄与度をou ... #Article#NeuralNetwork#Tutorial
Issue Date: 2022-10-27 CNN vs. ViT, 牛久先生 Comment・Swin Transformer, Depth-wise conv, ConvNeXt, ViTとCNNのロバスト性の違いの話があり勉強になる ・最終的な結論が、CNNもTransformerも変わらない(明確な勝者はいない; 今のところ引き分け)というのはおもしろかったdepth-wise co ... #Article#NeuralNetwork#NeurIPS
Issue Date: 2021-11-04 ResNet strikes back: An improved training procedure in timm, Wightman+, NeurIPS‘21 Comment2015年以後、様々な最適化アルゴリズム、正則化手法、データ拡張などが提案される中で、最新アーキテクチャのモデルにはそれらが適用される一方ベースラインとなるResNetではそれらが適用されず、論文の値のみが参照される現状はフェアではないので、ResNetの性能を向上させるような訓練手法を追求した研究 ... #Article#NeuralNetwork#CVPR
Issue Date: 2021-11-04 Deep Residual Learning for Image Recognition, He+, Microsoft Research, CVPR’16 CommentResNet論文 ResNetでは、レイヤーの計算する関数を、残差F(x)と恒等関数xの和として定義する。これにより、レイヤーが入力との差分だけを学習すれば良くなり、モデルを深くしても最適化がしやすくなる効果ぎある。数レイヤーごとにResidual Connectionを導入し、恒等関数によるショ同 ... #Article#NeuralNetwork#Tutorial
Issue Date: 2021-05-24 EfficientNet解説 Comment既存画像認識モデルの構造は変化させず、広さ、深さ、解像度を複合スケーリングすることで、従来よりも少ないパラメータ数、かつ学習速度でSoTAを達成。広さ、深さ、解像度はそれぞれ性能に互いに影響しあっており、従来のように別々にスケーリングするのではなく、3つのバランスをとりながらスケーリングする。スケー ... #Article#NeuralNetwork#NLP
Issue Date: 2021-05-19 MLP-like Architecture CommentgMLP:大規模なself-attentionが無いSpatial Gating Unitを搭載したシンプルなMLPでも、Transformerの性能に近づけたよ(特にCV)。つまり、self-attentionはessentialというわけではなさそうだよ。NLPの場合はgMLPだとTransまあ ... #Article#Pocket#NLP#CommentGeneration
Issue Date: 2019-09-27 Cross-domain personalized image captioning, Long+, 2019