Encoderに関する論文・技術記事メモの一覧

Encoder

#Embeddings #InformationRetrieval #Pocket #Transformer #SyntheticData #Reasoning #Test-Time Scaling #COLM #read-later #Selected Papers/Blogs
Issue Date: 2025-10-08 [Paper Note] ReasonIR: Training Retrievers for Reasoning Tasks, Rulin Shao+, COLM'25, 2025.04 GPT Summary- ReasonIR-8Bは、一般的な推論タスク向けに特別に訓練された初のリトリーバーであり、合成データ生成パイプラインを用いて挑戦的なクエリとハードネガティブを作成。これにより、BRIGHTベンチマークで新たな最先端成果を達成し、RAGタスクでも他のリトリーバーを上回る性能を示す。トレーニングレシピは一般的で、将来のLLMへの拡張が容易である。コード、データ、モデルはオープンソース化されている。 Comment

元ポスト:

Loading…

Llama3.1-8Bをbidirectional encoderに変換してpost-trainingしている。

#ComputerVision #Embeddings #InformationRetrieval #Pocket #NLP #MultiModal #SmallModel
Issue Date: 2025-10-03 [Paper Note] ModernVBERT: Towards Smaller Visual Document Retrievers, Paul Teiletche+, arXiv'25, 2025.10 GPT Summary- マルチモーダル埋め込みモデルは文書検索において効率的な代替手段として普及しているが、再利用アプローチが検索性能のボトルネックとなることがある。本研究では、視覚文書検索モデルを改善するための原則的なレシピを確立し、注意マスキングや画像解像度などが性能に影響を与える要因であることを示した。これに基づき、250Mパラメータのコンパクトな視覚-言語エンコーダーModernVBERTを開発し、文書検索タスクで大規模モデルを上回る性能を達成した。モデルとコードは公開されている。 Comment

元ポスト:

Loading…

MIT Licence
HF: https://huggingface.co/ModernVBERT

ポイント解説:

Loading…

#ComputerVision #Embeddings #Pocket #NLP #Dataset #MultiModal #NeurIPS #SpatialUnderstanding
Issue Date: 2025-09-22 [Paper Note] Perception Encoder: The best visual embeddings are not at the output of the network, Daniel Bolya+, NeurIPS'25, 2025.04 GPT Summary- Perception Encoder（PE）は、画像と動画理解のための新しいビジョンエンコーダで、シンプルなビジョンと言語の学習を通じて訓練されています。従来の特定のタスクに依存せず、対照的なビジョンと言語の訓練だけで強力な埋め込みを生成します。埋め込みを引き出すために、言語アライメントと空間アライメントの2つの手法を導入。PEモデルは、ゼロショット画像・動画分類で高い性能を示し、Q&Aタスクや空間タスクでも最先端の結果を達成しました。モデルやデータセットは公開されています。 Comment

元ポスト:

Loading…

#ComputerVision #EfficiencyImprovement #Pretraining #Pocket #OpenWeight #OpenSource #Backbone Issue Date: 2025-09-16 [Paper Note] OpenVision 2: A Family of Generative Pretrained Visual Encoders for Multimodal Learning, Yanqing Liu+, arXiv'25 GPT Summary- 本論文では、OpenVisionのアーキテクチャを簡素化し、トレーニング効率を向上させる方法を提案。テキストエンコーダーと対照損失を削除し、キャプショニング損失のみを使用したOpenVision 2を導入。初期結果は、トレーニング時間を約1.5倍短縮し、メモリ使用量を約1.8倍削減することを示し、10億以上のパラメータにスケールアップ可能であることを強調。 Comment

元ポスト:

Loading…

事前学習時にtext, image encoderのcontrastive lossで学習していたが、text encoderを無くしimage encoderに入力されたimageからcaptionを生成するcaption lossのみにすることで性能を落とすことなく効率を改善

#Embeddings #Pocket #NLP #Transformer #MultiLingual Issue Date: 2025-09-10 [Paper Note] mmBERT: A Modern Multilingual Encoder with Annealed Language Learning, Marc Marone+, arXiv'25 GPT Summary- mmBERTは、1800以上の言語で3兆トークンのデータを用いて事前学習されたエンコーダ専用の言語モデルであり、低リソース言語を短い減衰フェーズに含めることでパフォーマンスを向上させた。新しい要素を導入し、OpenAIのo3やGoogleのGemini 2.5 Proと同等の分類性能を達成。mmBERTは分類および検索タスクで以前のモデルを大幅に上回ることを示した。 Comment

blog: https://huggingface.co/blog/mmbert
HF: https://huggingface.co/jhu-clsp/mmBERT-checkpoints

- modernbert-ja-130m, SB Intuitions, 2025.02

と比較して日本語の性能はどうかなあ

元ポスト:

Loading…

解説:

Loading…

#ComputerVision #Pretraining #ContrastiveLearning Issue Date: 2025-08-07 [Paper Note] Scaling Vision Pre-Training to 4K Resolution, Baifeng Shi+, arXiv'25 GPT Summary- PS3を用いてCLIPスタイルの視覚事前学習を4K解像度にスケールアップし、計算コストを抑えつつ高解像度の視覚認識を改善。VILA-HDモデルは、低解像度でのグローバル画像エンコードを行い、局所的な高解像度領域を選択的に処理。これにより、従来のベースラインと比較して高い性能を発揮し、トークン使用量を最大4.3倍削減。PS3は解像度のスケーリング特性を持ち、複数のベンチマークで優れた効率を達成。新たに提案された4KProベンチマークでは、VILA-HDが他のMLLMを上回る結果を示した。 Comment

元ポスト:

Loading…

商用利用は不可な模様

#ComputerVision #EfficiencyImprovement #Pretraining #Pocket #OpenWeight #OpenSource #Selected Papers/Blogs #ICCV #Backbone Issue Date: 2025-06-26 [Paper Note] OpenVision: A Fully-Open, Cost-Effective Family of Advanced Vision Encoders for Multimodal Learning, Xianhang Li+, ICCV'25 GPT Summary- OpenVisionは、完全にオープンでコスト効果の高いビジョンエンコーダーのファミリーを提案し、CLIPと同等以上の性能を発揮します。既存の研究を基に構築され、マルチモーダルモデルの進展に実用的な利点を示します。5.9Mから632.1Mパラメータのエンコーダーを提供し、容量と効率の柔軟なトレードオフを実現します。 Comment

元ポスト:

Loading…

v2へアップデート:

Loading…

事前学習時にtext, image encoderのcontrastive lossで学習していたが、text encoderを無くしimage encoderに入力されたimageからcaptionを生成するcaption lossのみにすることで性能を落とすことなく効率を改善

テクニカルペーパーが出た模様

- [Paper Note] OpenVision 2: A Family of Generative Pretrained Visual Encoders for Multimodal Learning, Yanqing Liu+, arXiv'25

HF: https://huggingface.co/collections/UCSC-VLAA/openvision-681a4c27ee1f66411b4ae919
pj page: https://ucsc-vlaa.github.io/OpenVision/

CLIP, SigLIPとは異なり完全にオープンなVision Encoder

v2の解説:

Loading…

#Pocket #Transformer #LongSequence #NeurIPS #Encoder-Decoder Issue Date: 2023-05-09 Vcc: Scaling Transformers to 128K Tokens or More by Prioritizing Important Tokens, Zhanpeng Zeng+, N_A, NeurIPS'23 GPT Summary- 本論文では、Transformerモデルの二次コストを削減するために、各層でサイズ$r$が$n$に独立した表現に入力を圧縮する方法を提案する。VIPトークン中心の圧縮（Vcc）スキームを使用し、VIPトークンの表現を近似するために入力シーケンスを選択的に圧縮する。提案されたアルゴリズムは、競合するベースラインと比較して効率的であり、多数のタスクにおいて競争力のあるまたはより優れたパフォーマンスを発揮する。また、アルゴリズムは128Kトークンにスケーリングでき、一貫して精度の向上を提供することが示された。 #Analysis #Pocket #NLP #Transformer #ACL #KnowledgeEditing #Selected Papers/Blogs #FactualKnowledge Issue Date: 2024-07-11 Knowledge Neurons in Pretrained Transformers, Damai Dai+, N_A, ACL'22, 2022.05 GPT Summary- 大規模な事前学習言語モデルにおいて、事実知識の格納方法についての研究を行いました。具体的には、BERTのfill-in-the-blank cloze taskを用いて、関連する事実を表現するニューロンを特定しました。また、知識ニューロンの活性化と対応する事実の表現との正の相関を見つけました。さらに、ファインチューニングを行わずに、知識ニューロンを活用して特定の事実知識を編集しようと試みました。この研究は、事前学習されたTransformers内での知識の格納に関する示唆に富んでおり、コードはhttps://github.com/Hunter-DDM/knowledge-neuronsで利用可能です。 Comment

大規模言語モデルにおいて､「知識は全結合層に蓄積される」という仮説についての文献調査

日本語解説: https://speakerdeck.com/kogoro/knowledge-neurons-in-pretrained-transformers-for-snlp2022

上記資料によると、特定の知識を出力する際に活性化する知識ニューロンを特定する手法を提案。MLMを用いたclozeタスクによる実験で[MASK]部分に当該知識を出力する実験をした結果、知識ニューロンの重みをゼロとすると性能が著しく劣化し、値を2倍にすると性能が改善するといった傾向がみられた。　ケーススタディとして、知識の更新と、知識の削除が可能かを検証。どちらとも更新・削除がされる方向性[^1]へモデルが変化した。

また、知識ニューロンはTransformerの層の深いところに位置している傾向にあり、異なるrelationを持つような関係知識同士では共有されない傾向にある模様。

[^1]: 他の知識に影響を与えず、完璧に更新・削除できたわけではない。知識の更新・削除に伴いExtrinsicな評価によって性能向上、あるいはPerplexityが増大した、といった結果からそういった方向性へモデルが変化した、という話

#Embeddings #InformationRetrieval #Pocket #NLP #QuestionAnswering #ContrastiveLearning #EMNLP #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2025-09-28 [Paper Note] Dense Passage Retrieval for Open-Domain Question Answering, Vladimir Karpukhin+, EMNLP'20, 2020.04 GPT Summary- 密な表現を用いたパッセージ検索の実装を示し、デュアルエンコーダーフレームワークで学習。評価の結果、Lucene-BM25を上回り、検索精度で9%-19%の改善を達成。新たな最先端のQA成果を確立。 Comment

Dense Retrieverが広く知られるきっかけとなった研究（より古くはDSSM Learning Deep Structured Semantic Models for Web Search using Clickthrough Data, Huang+, CIKM'13 などがある)。bag-of-wordsのようなsparseなベクトルで検索するのではなく（=Sparse Retriever)、ニューラルモデルでエンコードした密なベクトルを用いて検索しようという考え方である。

Query用と検索対象のPassageをエンコードするEncoderを独立してそれぞれ用意し（＝DualEncoder)、QAの学習データ（すなわちクエリqと正例として正解passage p+)が与えられた時、クエリqと正例p+の類似度が高く、負例p-との類似度が低くなるように（=Contrastive Learning)、Query, Passage Encoderのパラメータを更新することで学習する（損失関数は式(2))。

負例はIn-Batch Negativeを用いる。情報検索の場合正解ラベルは多くの場合明示的に決まるが、負例は膨大なテキストのプールからサンプリングしなければならない。サンプリング方法はいろいろな方法があり（e.g., ランダムにサンプリング、qとbm25スコアが高いpassage（ただし正解は含まない; hard negativesと呼ぶ）その中の一つの方法がIn-Batch Negativesである。

In-Batch Negativesでは、同ミニバッチ内のq_iに対応する正例p+_i以外の全てのp_jを（擬似的に）負例とみなす。これにより、パラメータの更新に利用するためのq,pのエンコードを全て一度だけ実行すれば良く、計算効率が大幅に向上するという優れもの。本研究の実験（Table3)によると上述したIn-Batch Negativeに加えて、bm25によるhard negativeをバッチ内の各qに対して1つ負例として追加する方法が最も性能が良かった。

クエリ、passageのエンコーダとしては、BERTが用いられ、[CLS]トークンに対応するembeddingを用いて類似度が計算される。

#Article #Embeddings #NLP #SmallModel #OpenWeight Issue Date: 2025-10-09 colbert-muvera-femto, NeuML, 2025.10 Comment

元ポスト:

Loading…

#Article #ComputerVision #NLP #DiffusionModel #VisionLanguageModel #Editing Issue Date: 2025-09-24 Qwen-Image-Edit-2509, Qwen Team, 2025.09 Comment

テクニカルレポート: https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-Image/Qwen_Image.pdf

#Article #Analysis #NLP #Blog #Tokenizer #Finetuning Issue Date: 2025-08-02 日本語ModernBERTの開発: トークナイザと性能の関係編（3_3）, SBIntuitions, 2025.05 Comment

SBIntuitionsが公開している事前学習済みModernBertは4.4Tトークンの超大規模なトークンで学習されており、それらには多様な表現が出現するため通常では大幅に性能が劣化してしまうトークナイザの事後的にトークナイザを変換し、変換後トークナイザ→サブワード化を実施した場合に、downstreamタスクの性能が劣化するかを調査。その結果、性能の劣化がほとんど表出しなかった（特にモデルサイズが310mの場合は性能の劣化はほぼなさそう）。また、MeCab（Unidic)でわかち書きかれている前提の固有表現認識ベンチマークでの評価の結果、同様の条件でトークナイズをするモデル（パラメータサイズも同等）と、同等程度の性能を示した。ので、SBIntuitionsが公開している日本語ModernBERTにおいては、トークナイザを事後的に変換したのちにサブワード化を実施しモデルのinputとするような方法をしても、問題なさそう、という感じな模様。興味深い。

元ポスト:

Loading…