Encoder
#ComputerVision
#Pretraining
#ContrastiveLearning
Issue Date: 2025-08-07 [Paper Note] Scaling Vision Pre-Training to 4K Resolution, Baifeng Shi+, arXiv'25 SummaryPS3を用いてCLIPスタイルの視覚事前学習を4K解像度にスケールアップし、計算コストを抑えつつ高解像度の視覚認識を改善。VILA-HDモデルは、低解像度でのグローバル画像エンコードを行い、局所的な高解像度領域を選択的に処理。これにより、従来のベースラインと比較して高い性能を発揮し、トークン使用量を最大4.3倍削減。PS3は解像度のスケーリング特性を持ち、複数のベンチマークで優れた効率を達成。新たに提案された4KProベンチマークでは、VILA-HDが他のMLLMを上回る結果を示した。 Comment元ポスト:https://x.com/baifeng_shi/status/1952898951662977199?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q商用利用は不可な模様 #Pocket #Transformer #LongSequence #NeurIPS #Encoder-Decoder
Issue Date: 2023-05-09 Vcc: Scaling Transformers to 128K Tokens or More by Prioritizing Important Tokens, Zhanpeng Zeng+, N_A, NeurIPS'23 Summary本論文では、Transformerモデルの二次コストを削減するために、各層でサイズ$r$が$n$に独立した表現に入力を圧縮する方法を提案する。VIPトークン中心の圧縮(Vcc)スキームを使用し、VIPトークンの表現を近似するために入力シーケンスを選択的に圧縮する。提案されたアルゴリズムは、競合するベースラインと比較して効率的であり、多数のタスクにおいて競争力のあるまたはより優れたパフォーマンスを発揮する。また、アルゴリズムは128Kトークンにスケーリングでき、一貫して精度の向上を提供することが示された。 #Analysis #Pocket #NLP #Transformer #ACL #KnowledgeEditing #Admin'sPick #FactualKnowledge
Issue Date: 2024-07-11 Knowledge Neurons in Pretrained Transformers, Damai Dai+, N_A, ACL'22, 2022.05 Summary大規模な事前学習言語モデルにおいて、事実知識の格納方法についての研究を行いました。具体的には、BERTのfill-in-the-blank cloze taskを用いて、関連する事実を表現するニューロンを特定しました。また、知識ニューロンの活性化と対応する事実の表現との正の相関を見つけました。さらに、ファインチューニングを行わずに、知識ニューロンを活用して特定の事実知識を編集しようと試みました。この研究は、事前学習されたTransformers内での知識の格納に関する示唆に富んでおり、コードはhttps://github.com/Hunter-DDM/knowledge-neuronsで利用可能です。 Comment1108 日本語解説: https://speakerdeck.com/kogoro/knowledge-neurons-in-pretrained-transformers-for-snlp2022関連:
・2140上記資料によると、特定の知識を出力する際に活性化する知識ニューロンを特定する手法を提案。MLMを用いたclozeタスクによる実験で[MASK]部分に当該知識を出力する実験をした結果、知識ニューロンの重みをゼロとすると性能が著しく劣化し、値を2倍にすると性能が改善するといった傾向がみられた。 ケーススタディとして、知識の更新と、知識の削除が可能かを検証。どちらとも更新・削除がされる方向性[^1]へモデルが変化した。
また、知識ニューロンはTransformerの層の深いところに位置している傾向にあり、異なるrelationを持つような関係知識同士では共有されない傾向にある模様。
[^1]: 他の知識に影響を与えず、完璧に更新・削除できたわけではない。知識の更新・削除に伴いExtrinsicな評価によって性能向上、あるいはPerplexityが増大した、といった結果からそういった方向性へモデルが変化した、という話
Issue Date: 2025-08-07 [Paper Note] Scaling Vision Pre-Training to 4K Resolution, Baifeng Shi+, arXiv'25 SummaryPS3を用いてCLIPスタイルの視覚事前学習を4K解像度にスケールアップし、計算コストを抑えつつ高解像度の視覚認識を改善。VILA-HDモデルは、低解像度でのグローバル画像エンコードを行い、局所的な高解像度領域を選択的に処理。これにより、従来のベースラインと比較して高い性能を発揮し、トークン使用量を最大4.3倍削減。PS3は解像度のスケーリング特性を持ち、複数のベンチマークで優れた効率を達成。新たに提案された4KProベンチマークでは、VILA-HDが他のMLLMを上回る結果を示した。 Comment元ポスト:https://x.com/baifeng_shi/status/1952898951662977199?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q商用利用は不可な模様 #Pocket #Transformer #LongSequence #NeurIPS #Encoder-Decoder
Issue Date: 2023-05-09 Vcc: Scaling Transformers to 128K Tokens or More by Prioritizing Important Tokens, Zhanpeng Zeng+, N_A, NeurIPS'23 Summary本論文では、Transformerモデルの二次コストを削減するために、各層でサイズ$r$が$n$に独立した表現に入力を圧縮する方法を提案する。VIPトークン中心の圧縮(Vcc)スキームを使用し、VIPトークンの表現を近似するために入力シーケンスを選択的に圧縮する。提案されたアルゴリズムは、競合するベースラインと比較して効率的であり、多数のタスクにおいて競争力のあるまたはより優れたパフォーマンスを発揮する。また、アルゴリズムは128Kトークンにスケーリングでき、一貫して精度の向上を提供することが示された。 #Analysis #Pocket #NLP #Transformer #ACL #KnowledgeEditing #Admin'sPick #FactualKnowledge
Issue Date: 2024-07-11 Knowledge Neurons in Pretrained Transformers, Damai Dai+, N_A, ACL'22, 2022.05 Summary大規模な事前学習言語モデルにおいて、事実知識の格納方法についての研究を行いました。具体的には、BERTのfill-in-the-blank cloze taskを用いて、関連する事実を表現するニューロンを特定しました。また、知識ニューロンの活性化と対応する事実の表現との正の相関を見つけました。さらに、ファインチューニングを行わずに、知識ニューロンを活用して特定の事実知識を編集しようと試みました。この研究は、事前学習されたTransformers内での知識の格納に関する示唆に富んでおり、コードはhttps://github.com/Hunter-DDM/knowledge-neuronsで利用可能です。 Comment1108 日本語解説: https://speakerdeck.com/kogoro/knowledge-neurons-in-pretrained-transformers-for-snlp2022関連:
・2140上記資料によると、特定の知識を出力する際に活性化する知識ニューロンを特定する手法を提案。MLMを用いたclozeタスクによる実験で[MASK]部分に当該知識を出力する実験をした結果、知識ニューロンの重みをゼロとすると性能が著しく劣化し、値を2倍にすると性能が改善するといった傾向がみられた。 ケーススタディとして、知識の更新と、知識の削除が可能かを検証。どちらとも更新・削除がされる方向性[^1]へモデルが変化した。
また、知識ニューロンはTransformerの層の深いところに位置している傾向にあり、異なるrelationを持つような関係知識同士では共有されない傾向にある模様。
[^1]: 他の知識に影響を与えず、完璧に更新・削除できたわけではない。知識の更新・削除に伴いExtrinsicな評価によって性能向上、あるいはPerplexityが増大した、といった結果からそういった方向性へモデルが変化した、という話
#Article
#Analysis
#NLP
#Blog
#Tokenizer
#Finetuning
Issue Date: 2025-08-02
日本語ModernBERTの開発: トークナイザと性能の関係編 (3_3), SBIntuitions, 2025.05
CommentSBIntuitionsが公開している事前学習済みModernBertは4.4Tトークンの超大規模なトークンで学習されており、それらには多様な表現が出現するため通常では大幅に性能が劣化してしまうトークナイザの事後的にトークナイザを変換し、変換後トークナイザ→サブワード化を実施した場合に、downstreamタスクの性能が劣化するかを調査。その結果、性能の劣化がほとんど表出しなかった(特にモデルサイズが310mの場合は性能の劣化はほぼなさそう)。また、MeCab(Unidic)でわかち書きかれている前提の固有表現認識ベンチマークでの評価の結果、同様の条件でトークナイズをするモデル(パラメータサイズも同等)と、同等程度の性能を示した。ので、SBIntuitionsが公開している日本語ModernBERTにおいては、トークナイザを事後的に変換したのちにサブワード化を実施しモデルのinputとするような方法をしても、問題なさそう、という感じな模様。興味深い。元ポスト:https://x.com/hpp_ricecake/status/1951256302908305685?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q