MultiLingual
Issue Date: 2025-11-03 [Paper Note] Global PIQA: Evaluating Physical Commonsense Reasoning Across 100+ Languages and Cultures, Tyler A. Chang+, arXiv'25, 2025.10 GPT Summary- 「Global PIQA」は、65カ国の335人の研究者によって構築された、100以上の言語に対応した常識推論ベンチマークであり、116の言語バリエーションを含む。多くの例が文化特有の要素に関連しており、LLMは全体で良好なパフォーマンスを示すが、リソースが限られた言語では精度が低下することが発見された。Global PIQAは、言語と文化における日常的な知識の改善の必要性を示し、LLMの評価や文化の多様性の理解に寄与することを期待されている。 Comment
dataset: https://huggingface.co/datasets/mrlbenchmarks/global-piqa-nonparallel
元ポスト:
#Analysis #Pocket #NLP #LanguageModel #CrossLingual #TransferLearning #Scaling Laws #read-later #Selected Papers/Blogs #One-Line Notes
Issue Date: 2025-10-31 [Paper Note] ATLAS: Adaptive Transfer Scaling Laws for Multilingual Pretraining, Finetuning, and Decoding the Curse of Multilinguality, Shayne Longpre+, arXiv'25, 2025.10 GPT Summary- 本研究では、774の多言語トレーニング実験を通じて、最大の多言語スケーリング法則を探求し、ATLASという適応的転送スケーリング法則を導入。これにより、既存のスケーリング法則を上回る性能を示し、多言語学習のダイナミクスや言語間の転送特性を分析。言語ペア間の相互利益スコアを測定し、モデルサイズとデータの最適なスケーリング方法を明らかにし、事前学習とファインチューニングの計算的クロスオーバーポイントを特定。これにより、英語中心のAIを超えたモデルの効率的なスケーリングの基盤を提供することを目指す。 Comment
元ポスト:
バイリンガルで学習した時に、日本語とシナジーのある言語、この図を見ると無さそうに見える😅
#Pocket #NLP #Dataset #LanguageModel #Evaluation #Safety #ICLR
Issue Date: 2025-10-24 [Paper Note] SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal, Tinghao Xie+, ICLR'25, 2024.06 GPT Summary- SORRY-Benchは、整合された大規模言語モデル(LLMs)の安全でないユーザーリクエストの認識能力を評価する新しいベンチマークです。既存の評価方法の限界を克服するために、44の細かい安全でないトピック分類と440のクラスバランスの取れた指示を提供し、20の言語的拡張を追加しました。また、高速で正確な自動安全評価者を開発し、微調整された7B LLMがGPT-4と同等の精度を持つことを示しました。これにより、50以上のLLMの安全拒否行動を分析し、体系的な評価の基盤を提供します。デモやデータは公式サイトから入手可能です。 Comment
pj page: https://sorry-bench.github.io/
openreview: https://openreview.net/forum?id=YfKNaRktan
元ポスト:
LLMの応答を多言語でよりnativeに近いものにするための取り組み、および評価のフレームワーク(MENLO, データセット含む)な模様。nativeらしさを測るために重要な次元としてFluency, Tone, Localized Tone, Localized Factualityと呼ばれる軸を定義している模様。その上で47言語における6423の人手でアノテーションされたpreference dataを作成し評価をしたところ、既存のLLM-as-a-judgeやSFT/RLされたReward Modelでは、人間による評価にはまだまだ及ばないことが明らかになり、MENLOを用いてRL/SFTすることでLLM JudgeやReward Modelの性能を改善できる、といった話な模様。
4つの次元については以下の表を参照のこと。
それぞれ
- Fluency: 専門家レベルのnative speakerと比較した時のproficiency
- Tone: 全体的なwriting stvleや語り口
- Localized Tone: 文化的、地域的な言葉のニュアンス
- Localized Factuality: 地域固有のコンテキストに沿った事実性や網羅性
#Embeddings #Pocket #NLP #RepresentationLearning #SmallModel #OpenWeight Issue Date: 2025-09-25 [Paper Note] EmbeddingGemma: Powerful and Lightweight Text Representations, Henrique Schechter Vera+, arXiv'25, 2025.09 GPT Summary- EmbeddingGemmaは、Gemma 3言語モデルに基づく軽量なオープンテキスト埋め込みモデルで、エンコーダ-デコーダの初期化と幾何学的埋め込み蒸留を用いて大規模モデルの知識を活用。分散正則化器を使用し、異なるチェックポイントを統合することで一般化能力を向上。300Mのパラメータで、MTEBで最先端の結果を達成し、従来のトップモデルを上回る性能を示す。量子化や出力の切り詰めにも耐え、低遅延かつ高スループットのアプリケーションに適している。EmbeddingGemmaはコミュニティに公開され、さらなる研究を促進する。 Comment
公式モデル概要: https://ai.google.dev/gemma/docs/embeddinggemma?hl=ja
元ポスト:
100以上の言語で訓練されマトリョーシカ表現なのでベクトルのサイズを調整可能な模様
マトリョーシカ表現:
- [Paper Note] Matryoshka Representation Learning, Aditya Kusupati+, NeurIPS'22
公式による解説ブログ:
#Analysis #Pocket #NLP #LanguageModel #EMNLP #Findings #SparseAutoEncoder Issue Date: 2025-09-24 [Paper Note] How a Bilingual LM Becomes Bilingual: Tracing Internal Representations with Sparse Autoencoders, Tatsuro Inaba+, EMNLP'25 Findings, 2025.03 GPT Summary- 本研究では、バイリンガル言語モデルの内部表現の発展をスパースオートエンコーダーを用いて分析。言語モデルは初めに言語を個別に学習し、中間層でバイリンガルの整合性を形成することが明らかに。大きなモデルほどこの傾向が強く、分解された表現を中間トレーニングモデルに統合する新手法でバイリンガル表現の重要性を示す。結果は、言語モデルのバイリンガル能力獲得に関する洞察を提供。 Comment
元ポスト:
#Embeddings #Pocket #NLP #Transformer #Encoder Issue Date: 2025-09-10 [Paper Note] mmBERT: A Modern Multilingual Encoder with Annealed Language Learning, Marc Marone+, arXiv'25 GPT Summary- mmBERTは、1800以上の言語で3兆トークンのデータを用いて事前学習されたエンコーダ専用の言語モデルであり、低リソース言語を短い減衰フェーズに含めることでパフォーマンスを向上させた。新しい要素を導入し、OpenAIのo3やGoogleのGemini 2.5 Proと同等の分類性能を達成。mmBERTは分類および検索タスクで以前のモデルを大幅に上回ることを示した。 Comment
blog:
https://huggingface.co/blog/mmbert
HF:
https://huggingface.co/jhu-clsp/mmBERT-checkpoints
- modernbert-ja-130m, SB Intuitions, 2025.02
と比較して日本語の性能はどうかなあ
元ポスト:
解説:
#Pocket #NLP #Dataset #LanguageModel #Evaluation #Coding Issue Date: 2025-08-19 [Paper Note] AutoCodeBench: Large Language Models are Automatic Code Benchmark Generators, Jason Chou+, arXiv'25 GPT Summary- AutoCodeGenを提案し、手動注釈なしで高難易度の多言語コード生成データセットを自動生成。これに基づき、3,920の問題からなるAutoCodeBenchを導入し、20のプログラミング言語に均等に分配。30以上のLLMsを評価した結果、最先端のモデルでも多様性や複雑さに苦労していることが明らかに。AutoCodeBenchシリーズは、実用的な多言語コード生成シナリオに焦点を当てるための貴重なリソースとなることを期待。 Comment
pj page: https://autocodebench.github.io/
元ポスト:
#ComputerVision #Pocket #NLP #Dataset #CLIP #NeurIPS #read-later #Selected Papers/Blogs Issue Date: 2025-07-30 [Paper Note] MetaCLIP 2: A Worldwide Scaling Recipe, Yung-Sung Chuang+, NeurIPS'25 Spotlight GPT Summary- MetaCLIP 2を提案し、CLIPをゼロから訓練するための新しいアプローチを示す。英語と非英語データの相互利益を得るための最小限の変更を加え、ゼロショットのImageNet分類で英語専用モデルを上回る性能を達成。多言語ベンチマークでも新たな最先端を記録。 Comment
元ポスト:
マルチリンガルなCLIP
HF: https://huggingface.co/facebook/metaclip-2-mt5-worldwide-b32
#Pocket #NLP #Dataset #LanguageModel #Alignment #Supervised-FineTuning (SFT) #DPO #PostTraining #Cultural Issue Date: 2025-07-04 [Paper Note] CARE: Assessing the Impact of Multilingual Human Preference Learning on Cultural Awareness, Geyang Guo+, arXiv'25 GPT Summary- 本論文では、文化的多様性を考慮した言語モデル(LM)の訓練方法を分析し、ネイティブな文化的好みを取り入れることで、LMの文化的認識を向上させることを目指します。3,490の文化特有の質問と31,700のネイティブな判断を含むリソース「CARE」を紹介し、高品質なネイティブの好みを少量取り入れることで、さまざまなLMの性能が向上することを示します。また、文化的パフォーマンスが強いモデルはアラインメントからの恩恵を受けやすく、地域間でのデータアクセスの違いがモデル間のギャップを生むことが明らかになりました。CAREは一般に公開される予定です。 Comment
元ポスト:
#EfficiencyImprovement #Pretraining #Pocket #NLP #Dataset #LanguageModel #COLM #Selected Papers/Blogs Issue Date: 2025-06-28 [Paper Note] FineWeb2: One Pipeline to Scale Them All -- Adapting Pre-Training Data Processing to Every Language, Guilherme Penedo+, COLM'25 GPT Summary- 多言語LLMsの性能向上のために、FineWebに基づく新しい事前学習データセットキュレーションパイプラインを提案。9つの言語に対して設計選択肢を検証し、非英語コーパスが従来のデータセットよりも高性能なモデルを生成できることを示す。データセットの再バランス手法も導入し、1000以上の言語にスケールアップした20テラバイトの多言語データセットFineWeb2を公開。 Comment
元ポスト:
abstを見る限りFinewebを多言語に拡張した模様
openreview: https://openreview.net/forum?id=jnRBe6zatP#discussion
#ComputerVision #Pocket #NLP #Dataset #QuestionAnswering #Evaluation #MultiModal #VisionLanguageModel #Cultural Issue Date: 2025-08-18 [Paper Note] CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark, David Romero+, arXiv'24 GPT Summary- CVQAは、文化的に多様な多言語のVisual Question Answeringベンチマークで、30か国からの画像と質問を含み、31の言語と13のスクリプトをカバー。データ収集にはネイティブスピーカーを関与させ、合計10,000の質問を提供。マルチモーダル大規模言語モデルをベンチマークし、文化的能力とバイアスを評価するための新たな基準を示す。 #ComputerVision #Pocket #NLP #Dataset #InstructionTuning #Evaluation #VisionLanguageModel Issue Date: 2025-08-18 [Paper Note] Pangea: A Fully Open Multilingual Multimodal LLM for 39 Languages, Xiang Yue+, arXiv'24 GPT Summary- Pangeaは、39の言語にわたる6M指示データセットPangeaInsを用いて訓練された多言語マルチモーダルLLMであり、異文化間のカバレッジを確保しています。Pangeaは、47の言語をカバーする評価スイートPangeaBenchで既存のモデルを大幅に上回る性能を示し、英語データの比率やマルチモーダル訓練サンプルの重要性を明らかにしました。データ、コード、訓練済みチェックポイントはオープンソース化され、言語的および文化的公平性を推進します。 #Pocket #NLP #Dataset #LanguageModel #Evaluation #Coding #Reasoning Issue Date: 2025-08-15 [Paper Note] CRUXEval-X: A Benchmark for Multilingual Code Reasoning, Understanding and Execution, Ruiyang Xu+, arXiv'24 GPT Summary- CRUXEVAL-Xという多言語コード推論ベンチマークを提案。19のプログラミング言語を対象に、各言語で600以上の課題を含む19Kのテストを自動生成。言語間の相関を評価し、Python訓練モデルが他言語でも高い性能を示すことを確認。 Comment
#Pocket #NLP #Dataset #LanguageModel #Evaluation #LongSequence #ACL Issue Date: 2025-08-07 [Paper Note] LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding, Yushi Bai+, ACL'24 GPT Summary- 本論文では、長いコンテキスト理解のための初のバイリンガル・マルチタスクベンチマーク「LongBench」を提案。英語と中国語で21のデータセットを含み、平均長はそれぞれ6,711語と13,386文字。タスクはQA、要約、少数ショット学習など多岐にわたる。評価結果から、商業モデルは他のオープンソースモデルを上回るが、長いコンテキストでは依然として課題があることが示された。 Comment
PLaMo Primeの長文テキスト評価に利用されたベンチマーク(中国語と英語のバイリンガルデータであり日本語は存在しない)
PLaMo Primeリリースにおける機能改善:
https://tech.preferred.jp/ja/blog/plamo-prime-release-feature-update/
タスクと言語ごとのLengthの分布。英語の方がデータが豊富で、長いものだと30000--40000ものlengthのサンプルもある模様。
#ComputerVision #InformationRetrieval #NLP #Dataset #LanguageModel #RAG(RetrievalAugmentedGeneration) #COLING #VisionLanguageModel Issue Date: 2024-12-16 VLR-Bench: Multilingual Benchmark Dataset for Vision-Language Retrieval Augmented Generation, Hyeonseok Lim+, arXiv'24 GPT Summary- 視覚言語モデル(VLM)を評価するための新しいベンチマークVLR-Benchを提案。これは5つの入力パッセージを用いて、特定のクエリに対する有用な情報の判断能力をテストする。32,000の自動生成された指示からなるデータセットVLR-IFを構築し、VLMのRAG能力を強化。Llama3ベースのモデルで性能を検証し、両データセットはオンラインで公開。 Comment
Multilingual VLMを用いたRAGのベンチマークデータセット
#Survey #Pocket #NLP #LanguageModel Issue Date: 2024-11-19 Multilingual Large Language Models: A Systematic Survey, Shaolin Zhu+, arXiv'24 GPT Summary- 本論文は、多言語大規模言語モデル(MLLMs)の最新研究を調査し、アーキテクチャや事前学習の目的、多言語能力の要素を論じる。データの質と多様性が性能向上に重要であることを強調し、MLLMの評価方法やクロスリンガル知識、安全性、解釈可能性について詳細な分類法を提示。さらに、MLLMの実世界での応用を多様な分野でレビューし、課題と機会を強調する。関連論文は指定のリンクで公開されている。 Comment
#ComputerVision #Pocket #NLP #Dataset #LanguageModel #Evaluation #NAACL #VisionLanguageModel Issue Date: 2023-11-14 MEGAVERSE: Benchmarking Large Language Models Across Languages, Modalities, Models and Tasks, Sanchit Ahuja+, N_A, NAACL'24 GPT Summary- LLMsの研究は急速に進展しており、英語以外の言語での評価が必要とされている。本研究では、新しいデータセットを追加したMEGAVERSEベンチマークを提案し、さまざまなLLMsを評価する。実験の結果、GPT4とPaLM2が優れたパフォーマンスを示したが、データの汚染などの問題があるため、さらなる取り組みが必要である。 #MachineTranslation #Pocket #NLP #LanguageModel #Annotation #TransferLearning #ACL Issue Date: 2023-05-04 Frustratingly Easy Label Projection for Cross-lingual Transfer, Yang Chen+, N_A, ACL'23 GPT Summary- - 多言語のトレーニングデータの翻訳は、クロスリンガル転移の改善に役立つ- スパンレベル注釈が必要なタスクでは、注釈付きスパンを翻訳されたテキストにマッピングするために追加のラベルプロジェクションステップが必要- マーク-翻訳法を利用するアプローチが従来の注釈プロジェクションと比較してどのようになるかについての実証的な分析を行った- EasyProjectと呼ばれるマーク-翻訳法の最適化されたバージョンが多言語に簡単に適用でき、より複雑な単語アラインメントベースの方法を上回ることを示した- すべてのコードとデータが公開される #NeuralNetwork #Pocket #NLP #Tokenizer #Selected Papers/Blogs Issue Date: 2025-11-19 [Paper Note] SentencePiece: A simple and language independent subword tokenizer and detokenizer for Neural Text Processing, Taku Kudo+, arXiv'18, 2018.08 GPT Summary- 本論文では、Neural Machine Translation向けの言語に依存しないサブワードトークナイザー「SentencePiece」を紹介。生の文から直接サブワードモデルを訓練でき、エンドツーエンドのシステム構築が可能。英日機械翻訳の実験で高精度を確認し、さまざまな構成での性能比較も行った。SentencePieceはオープンソースで提供されている。 Comment
真の多言語処理を実現できる価値
著者による解説:
https://qiita.com/taku910/items/7e52f1e58d0ea6e7859c
#NeuralNetwork #MachineTranslation #Pocket #NLP #TransferLearning #Zero/FewShotLearning #TACL #Encoder-Decoder #LowResource Issue Date: 2025-11-19 [Paper Note] Google's Multilingual Neural Machine Translation System: Enabling Zero-Shot Translation, Melvin Johnson+, TACL'17, 2016.11 GPT Summary- 単一のNMTモデルを用いて多言語翻訳を実現するシンプルな手法を提案。入力文の先頭に人工トークンを追加することでターゲット言語を指定し、モデルのアーキテクチャは変更せずに共有語彙を使用。これにより、パラメータを増やさずに翻訳品質を向上させ、WMT'14およびWMT'15ベンチマークで最先端の結果を達成。訓練中に見たことのない言語ペア間での暗黙のブリッジングを学習し、転移学習とゼロショット翻訳の可能性を示す。 Comment
#Article #Transformer #SpeechProcessing #OpenWeight #AutomaticSpeechRecognition(ASR) #Selected Papers/Blogs #AudioLanguageModel Issue Date: 2025-11-12 Omnilingual ASR: Advancing Automatic Speech Recognition for 1,600+ Languages, Meta, 2025.11 Comment
#Article #ComputerVision #NLP #Supervised-FineTuning (SFT) #ReinforcementLearning #Japanese #GRPO #Selected Papers/Blogs #DocParser #VisionLanguageModel #OCR #One-Line Notes Issue Date: 2025-10-23 olmOCR 2: Unit test rewards for document OCR, Ai2, 2025.10 Comment
元ポスト:
モデル: https://huggingface.co/allenai/olmOCR-2-7B-1025-FP8
Apache2.0ライセンスでSoTA更新。そしてさすがの学習データとコードも公開
テクニカルレポート: https://github.com/allenai/olmocr/blob/main/olmOCR-2-Unit-Test-Rewards-for-Document-OCR.pdf
果たして日本語は…SFT Datasetのtop5にjaはなかったように見える
所見:
demoを試した見たが日本語スライドでも非常に性能が良い
DeepSeekOCRとの比較:
#Article #ComputerVision #NLP #SmallModel #OpenWeight #VisionLanguageModel Issue Date: 2025-10-22 LFM2-VL-3B: A New Efficient Vision-Language for the Edge, LiquidAI, 2025.10 Comment
元ポスト:
HF: https://huggingface.co/LiquidAI/LFM2-VL-3B
SigLIP2とLFM2がバックボーン
- Introducing LFM2: The Fastest On-Device Foundation Models on the Market, LiquidAI, 2025.07
#Article #Pretraining #NLP #Dataset #LanguageModel #TabularData #Mathematics #DataFiltering #One-Line Notes Issue Date: 2025-10-22 FindWiki, Guilherme Penedo, 2025.10 Comment
元ポスト:
2023年時点で公開されたWikipediaデータをさらに洗練させたデータセット。文字のレンダリング、数式、latex、テーブルの保持(従来は捨てられてしまうことが多いとのこと)、記事に関係のないコンテンツのフィルタリング、infoboxを本文から分離してメタデータとして保持するなどの、地道な前処理をして洗練化させたとのこと。
#Article #ComputerVision #NLP #SmallModel #OpenWeight #DocParser #VisionLanguageModel #OCR Issue Date: 2025-10-22 dots.ocr, rednote-hilab, 2025.07 Comment
100+言語のdots.ocr benchと呼ばれるものでの性能も報告されているが、日本語性能はどのくらいなのだろうか
MIT Licence
参考:VLMを使った多言語ドキュメントパーサ「dots.ocr」を試す, kun432, Zenn
https://zenn.dev/kun432/scraps/b91fce6fbeb30c
日本語もかなりいけてそう
#Article #ComputerVision #NLP #LanguageModel #OpenWeight #DocParser #OCR Issue Date: 2025-10-22 Chandra, datalab-to, 2025.10 Comment
元ポスト:
SoTA.だったdots.ocrというモデルをoutperformしている模様
40+ languagesをサポート
AI PUBS OpenRAIL-M Modifiedライセンス🤔
https://huggingface.co/datalab-to/chandra/blob/main/LICENSE
dots.ocrはMIT Licence
- dots.ocr, rednote-hilab, 2025.07
#Article #ComputerVision #NLP #LanguageModel #read-later #Selected Papers/Blogs #DocParser #Encoder-Decoder #OCR #Reference Collection Issue Date: 2025-10-20 DeepSeek-OCR: Contexts Optical Compression, DeepSeek, 2025.10 Comment
元ポスト:
英語と中国語では使えそうだが、日本語では使えるのだろうか?p.17 Figure11を見ると100言語に対して学習したと書かれているように見える。
所見:
所見:
OCRベンチマーク:
- [Paper Note] OmniDocBench: Benchmarking Diverse PDF Document Parsing with Comprehensive Annotations, Linke Ouyang+, CVPR'25, 2024.12
(DeepSeek-OCRの主題はOCRの性能向上というわけではないようだが)
所見:
所見+ポイント解説:
所見:
textxをimageとしてエンコードする話は以下の2023年のICLRの研究でもやられているよというポスト:
- [Paper Note] Language Modelling with Pixels, Phillip Rust+, ICLR'23, 2022.07
関連:
- [Paper Note] Text or Pixels? It Takes Half: On the Token Efficiency of Visual Text
Inputs in Multimodal LLMs, Yanhong Li+, arXiv'25, 2025.10
- [Paper Note] PixelWorld: Towards Perceiving Everything as Pixels, Zhiheng Lyu+, arXiv'25, 2025.01
関連:
literature:
上記ポストでは本研究はこれらliteratureを完全に無視し “an initial investigation into the feasibility of compressing long contexts via optical 2D mapping.” と主張しているので、先行研究を認識し引用すべきだと述べられているようだ。
karpathy氏のポスト:
#Article #SpeechProcessing #OpenWeight #TTS Issue Date: 2025-10-09 commonvoice22_sidon, sarulab-speech, 2025.10 Comment
元ポスト:
134言語サポートのTTS
#Article #NLP #Dataset #Japanese #Cultural #One-Line Notes Issue Date: 2025-09-24 Nemotron-Personas-Japan: Synthesized Data for Sovereign AI, Nvidia, 2025.09 Comment
dataset: https://huggingface.co/datasets/nvidia/Nemotron-Personas-Japan
元ポスト:
国勢調査の統計情報や名字由来netをシードとし、LLM Aによってペルソナに必要な各種属性(文化的背景、スキルと専門知識、キャリア目標と野望、趣味と興味等)を合成し、それらがgivenな状態で、複数のタイプのペルソナ(全体、職業、芸術、スポーツ)を説明するテキストを合成している模様?細かい生成手法はよくわからなかった。実世界の分布(人口統計、地理的分布、性格特性など)を反映した上でペルソナが合成されており、地域固有の人口統計、文化的背景を取り入れたソブリンAIの開発を支援するとのこと。
アメリカやインドの合成されたペルソナもある:
#Article #Embeddings #NLP #OpenWeight Issue Date: 2025-09-05 Introducing EmbeddingGemma: The Best-in-Class Open Model for On-Device Embeddings, Google, 2025.09 Comment
HF: https://huggingface.co/collections/google/embeddinggemma-68b9ae3a72a82f0562a80dc4
元ポスト:
解説:
解説:
#Article #NLP #LanguageModel #OpenWeight #OpenSource Issue Date: 2025-09-03 APERTUS: DEMOCRATIZING OPEN AND COMPLIANT LLMS FOR GLOBAL LANGUAGE ENVIRONMENTS, Apertus Team, 2025.09 Comment
HF: https://huggingface.co/collections/swiss-ai/apertus-llm-68b699e65415c231ace3b059
元ポスト:
1811カ国語に対応した、スイス発のOpenSource(=学習データ、学習のレシピ、学習データを再現するためのスクリプトも公開されている) LLM。8B / 70Bが存在。
Apache 2.0 + Apertus LLM Acceptable Use Policy
解説:
#Article #LanguageModel #SpeechProcessing #LongSequence #OpenWeight #TTS Issue Date: 2025-08-25 VibeVoice-1.5B, microsoft, 2025.08 Comment
元ポスト:
> Unsupported language – the model is trained only on English and Chinese data; outputs in other languages are unsupported and may be unintelligible or offensive.
日本語は対応していないので注意
outputできるspeechのlengthが先行研究より非常に長く、90分近く生成できる模様?
#Article #MachineTranslation #NLP #LanguageModel #SmallModel #OpenWeight Issue Date: 2025-07-18 Seed-X-Instruct-7B, ByteDance-Seed, 2025.07 Comment
元ポスト:
MTに特化したMultilingual SLM。7Bモデルだがベンチマーク上では他の大規模なモデルと同等以上。
テクニカルレポート: https://github.com/ByteDance-Seed/Seed-X-7B/blob/main/Technical_Report.pdf
#Article #Tutorial #NLP #LanguageModel #Reasoning #LongSequence #SmallModel #OpenWeight #OpenSource #Selected Papers/Blogs Issue Date: 2025-07-09 SmolLM3: smol, multilingual, long-context reasoner, HuggingFace, 2025.07 Comment
元ポスト:
SmolLM3を構築する際の詳細なレシピ(アーキテクチャ、データ、data mixture, 3 stageのpretraining(web, code, mathの割合と品質をステージごとに変え、stable->stable->decayで学習), midtraining(long context->reasoning, post training(sft->rl), ハイブリッドreasoningモデルの作り方、評価など)が説明されている
学習/評価スクリプトなどがリリース:
#Article #NLP #LanguageModel #Alignment #Supervised-FineTuning (SFT) #ReinforcementLearning #InstructionTuning #Blog #LongSequence #OpenWeight #MoE(Mixture-of-Experts) #PostTraining Issue Date: 2025-04-29 Qwen3, Qwen Team, 2025.04 Comment
- 119言語をサポート
- MoEモデル Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer, Noam Shazeer+, ICLR'17
- 30B-A3B / 235B-A22N
- 128K context window
- Qwen2.5はMoEを採用していないので新たなアーキテクチャとなる
- Denseモデル(非MoEモデル)も公開
- 0.6B -- 32B
- 32K -- 128K context window
- Thinking/Non-thinking の切り替えが切り替えが可能
- スイッチは自動的に実施されるが、ユーザが明示的に `/think`, `/no_think` を user_promptの末尾に追加することで制御することも可能
- Pre-training
- データ
- 36 trillion tokensによって学習(Qwen-2.5の2倍)
- 学習データではwebデータに加えて、PDF-likeな文書群からQwen2.5-VL Qwen2.5-VL-32B-Instruct, Qwen Team, 2025.03
によってテキストを抽出し、Qwen2.5 で抽出された内容の品質を改善し利用
- また、math / code に関するデータを追加するために、Qwen2.5-Math / Qwen2.5-Coderを用いて合成データを作成(textbooks / QA pairs / code snippets Textbooks Are All You Need, Suriya Gunasekar+, N/A, arXiv'23
)
- 事前学習のステップ
- S1: context長が4kの30 trillion tokenで事前学習
- S2: STEM / coding / reasoning task などのknowledge-intensiveデータの比率を増やして継続事前学習 (これがおそらく 5 trillion token程度?)
- Final Stage: context長を32kに拡大し高品質なlong-context dataで継続事前学習
- これによりBaseモデルが完成し、Qwen3-235B全体のうち10%程度のActive Parameterの利用するだけで(i.e., 22Bで)、Qwen2.5-72B Baseと同等以上の性能達成
- Post-training
- S1: long-CoT cold start
- 数学/coding/logical reasoning/STEMなどの多様なlong CoTデータを用いてSFT s1: Simple test-time scaling, Niklas Muennighoff+, arXiv'25
- S2: reasoning-based RL
- rule-based (verifiable) rewards によるRL DeepSeek-R1, DeepSeek, 2025.01
- S1/S2の流れは Demystifying Long Chain-of-Thought Reasoning in LLMs, Edward Yeo+, arXiv'25
に有効性が示されている通り、long CoT DataによるSFT -> RLを実施
- S3: thinking mode fusion
- S2データを用いてlong CoTデータとinstruction tuningデータ(非Long CoT)を生成し、Thinking/Non-thinkingを自動的に選択し生成するように学習(SFT or RLは記述なし)
- S4: general RL
- 20以上の一般的なドメインのタスクを通じて一般的な能力の向上と、safetyに関するalignmentの実施(e.g., instruction following, format following, agent能力など)
BestPracticeに関するポスト:
解説:
#Article #NLP #LanguageModel #Reasoning #OpenWeight Issue Date: 2025-03-12 Reasoning with Reka Flash, Reka, 2025.03 Comment
Weights: https://huggingface.co/RekaAI/reka-flash-3
Apache-2.0
< /reasoning >を強制的にoutputさせることでreasoningを中断させることができ予算のコントロールが可能とのこと
#Article #ComputerVision #NLP #LanguageModel #MultiModal #FoundationModel Issue Date: 2024-12-04 Introducing Amazon Nova, our new generation of foundation models, AWS, 2024.12 Comment
参考: https://qiita.com/ysit/items/8433d149dbaab702d526
後で個々のベンチマークとメトリックをまとめたい。
まあでもざっくり言うと、他のproprietaryモデルともおおむね同等の性能です、という感じに見える。個々のタスクレベルで見ると、得意なものと不得意なものはありそうではある。
スループットとかも、ProとGPT4oをパッと見で比較した感じ、優れているわけでもなさそう。Liteに対応するGPTはおそらくGPT4o-miniだと思われるが、スループットはLiteの方が高そう。
(画像は論文中からスクショし引用)
下記ポストは独自に評価した結果や、コストと性能のバランスについて言及している。
- ProはGPT4oのコストの約1/3
- Pro, Lite, Flashはほれぞれコストパフォーマンスに非常に優れている(Quality vs. Price参照)
元ポスト:
#Article #NLP #OpenWeight Issue Date: 2024-10-24 Aya Expanse, Cohere, 2024.10 Comment
CohereによるマルチリンガルLLM, 8B, 32Bのモデルが存在する。
8BモデルのArenaHardでの評価
32BモデルのArenaHardでの評価
#Article #Pocket #LanguageModel #Blog Issue Date: 2024-04-12 The State of Multilingual AI, Sebastian Ruder, 2024