LowResource
[Paper Note] Mix, Don't Tune: Bilingual Pre-Training Outperforms Hyperparameter Search in Data-Constrained Settings, Paul Jeha+, arXiv'26, 2026.05
Paper/Blog Link My Issue
#Analysis #Pretraining #NLP #LanguageModel #DataMixture #One-Line Notes Issue Date: 2026-05-21 GPT Summary- 低リソース言語の事前学習におけるデータ制約を克服するために、ハイパーパラメータ調整と高リソース言語のデータ混合の二つのアプローチを比較。データ混合は検証損失と下流タスクの精度向上をもたらし、特にモデルサイズが大きいほどその効果が顕著。混合による性能向上は、ターゲットデータのユニークな量の2〜13倍に相当し、混合が正則化と知識供給に寄与するが、検証損失はその効果を過小評価している。実践的な指針として、高リソース言語の混合を優先し、ハイパーパラメータ調整よりも混合比に焦点を当てることを提案。 Comment
元ポスト:
low resourceな言語での性能向上にはハイパーパラメータを調整するよりもHigh Resourceなデータを混合し、正則化の働きを促進するのと、low resourceなデータからでは得られない知識を注入する方が効果的
[Paper Note] Parallel-SFT: Improving Zero-Shot Cross-Programming-Language Transfer for Code RL, Zhaofeng Wu+, arXiv'26, 2026.04
Paper/Blog Link My Issue
#NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #Coding #TransferLearning #PostTraining #Initial Impression Notes #Author Thread-Post Issue Date: 2026-04-25 GPT Summary- 低リソースのプログラミング言語(PL)における言語モデルの性能は、訓練データの制約を受ける。本研究では、ゼロショットの跨プログラミング言語転移タスクを提案し、Llama-3.1がPL間でのコード生成において改善されないことを明らかにした。これに対処するため、一般化可能なSFT初期化が必要とし、「並列プログラム」を使用したSFT戦略Parallel-SFTを導入。Parallel-SFTによって転移性が向上し、RL実行後に未知のPLへの一般化が改善されることを示した。モデルの内部表現分析は、PL間での同等プログラムが密にクラスタ化され、これが転移性向上に寄与することを示唆している。 Comment
元ポスト:
RL前にプログラミング言語でのパラレルコーパスでSFTすることで、特定言語でRLをした場合でも他言語にも性能が転移する、という話に見える。
著者ポスト:
[Paper Note] DiaMoE-TTS: A Unified IPA-Based Dialect TTS Framework with Mixture-of-Experts and Parameter-Efficient Zero-Shot Adaptation, Ziqi Chen+, arXiv'25, 2025.09
Paper/Blog Link My Issue
#Transformer #SpeechProcessing #MoE(Mixture-of-Experts) #FlowMatching #TTS #ConvolutionalModels Issue Date: 2025-10-18 GPT Summary- DiaMoE-TTSは、方言の音声合成のためのIPAベースのフレームワークを提案し、音声表現の標準化と曖昧さの解決を図る。F5-TTSアーキテクチャを基に、方言に対応したMixture-of-Expertsを導入し、効率的なパラメータ適応を実現。スケーラブルでオープンデータ駆動のアプローチにより、数時間のデータで未見の方言や専門的なドメインに対して自然で表現力豊かな音声生成を達成。 Comment
元ポスト:
[Paper Note] Leveraging High-Resource English Corpora for Cross-lingual Domain Adaptation in Low-Resource Japanese Medicine via Continued Pretraining, Kobayashi+, EMNLP'25 Findings
Paper/Blog Link My Issue
#Analysis #Pretraining #DomainAdaptation #NLP #LanguageModel #CrossLingual #Japanese #DataMixture #Medical Issue Date: 2025-09-24 GPT Summary- 低リソース言語の医療コーパスでは、PLMsの跨言語適応が難しい。本研究は、日本語と英語の医療知識ベンチマークにおける言語的特徴がパフォーマンスに与える影響を分析。異なる比率の英語と日本語テキストを用いた多言語コーパスでの継続的事前学習を通じて、専門知識を活用しつつターゲット言語の表現をカバーする最適化手法を提案。これにより、低リソース言語の専門分野での多言語モデル開発に寄与することを目指す。 Comment
元ポスト:
[Paper Note] SSA-COMET: Do LLMs Outperform Learned Metrics in Evaluating MT for Under-Resourced African Languages?, Senyu Li+, EMNLP'25, 2025.06
Paper/Blog Link My Issue
#MachineTranslation #Metrics #NLP #Dataset #LanguageModel #Evaluation #Reference-free #EMNLP Issue Date: 2025-09-24 GPT Summary- アフリカの言語における機械翻訳の品質評価は依然として課題であり、既存の指標は限られた性能を示しています。本研究では、13のアフリカ言語ペアを対象とした大規模な人間注釈付きMT評価データセット「SSA-MTE」を紹介し、63,000以上の文レベルの注釈を含んでいます。これに基づき、改良された評価指標「SSA-COMET」と「SSA-COMET-QE」を開発し、最先端のLLMを用いたプロンプトベースのアプローチをベンチマークしました。実験結果は、SSA-COMETがAfriCOMETを上回り、特に低リソース言語で競争力があることを示しました。すべてのリソースはオープンライセンスで公開されています。 Comment
元ポスト:
[Paper Note] No Language Left Behind: Scaling Human-Centered Machine Translation, NLLB Team+, arXiv'22, 2022.07
Paper/Blog Link My Issue
#MachineTranslation #NLP #Dataset #One-Line Notes Issue Date: 2024-09-26 GPT Summary- 低資源言語翻訳を支援するため、母語話者へのインタビューを通じてニーズを明らかにし、新たなデータセットとモデルを開発。Sparsely Gated Mixture of Expertsに基づく条件付き計算モデルを用い、訓練時の過剰適合を抑えつつ性能を向上。Flores-200ベンチマークにより翻訳性能を評価し、BLEUスコアを44%改善。研究成果はオープンソースとして公開。 Comment
low-resourceな言語に対するMTのベンチマーク
[Paper Note] Google's Multilingual Neural Machine Translation System: Enabling Zero-Shot Translation, Melvin Johnson+, TACL'17, 2016.11
Paper/Blog Link My Issue
#NeuralNetwork #MachineTranslation #NLP #TransferLearning #MultiLingual #Zero/FewShotLearning #TACL #Encoder-Decoder Issue Date: 2025-11-19 GPT Summary- 単一のNMTモデルを用いて多言語翻訳を実現するシンプルな手法を提案。入力文の先頭に人工トークンを追加することでターゲット言語を指定し、モデルのアーキテクチャは変更せずに共有語彙を使用。これにより、パラメータを増やさずに翻訳品質を向上させ、WMT'14およびWMT'15ベンチマークで最先端の結果を達成。訓練中に見たことのない言語ペア間での暗黙のブリッジングを学習し、転移学習とゼロショット翻訳の可能性を示す。 Comment
Cohere Labs Launches Tiny Aya, Making Multilingual AI Accessible, COHERE LABS TEAM, 2026.02
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Blog #SmallModel #MultiLingual #OpenWeight #Selected Papers/Blogs #KeyPoint Notes #Reference Collection Issue Date: 2026-02-18 Comment
元ポスト:
公式ポスト:
アーキテクチャ解説:
70程度の言語の性能をバランス良くサポートする3.35BのLLMで、Baseモデルと、マルチリンガルの性能は保ちつつも特定のregionに特化したinstruction tuningを実施したvariantを公開。また、multilingualでのベンチマークも公開。同程度の規模間のモデルについて、qwen3-4Bとの比較がわかりやすく、Europe, south asiaは同等、Asia-pacificはQwenよりも劣り、west asia, africa regionのようなこれまでlow resourceだと思われたregionではほか同規模のモデルと比較して突出した性能を誇るモデルに見える。CC上でのページ数と、言語モデルごとの性能を比較したグラフもあり、CCでのデータが少ない言語はこれまでのモデルは性能が低かったが、Tiny Ayaは非常に高い性能を達成している(このグラフで言うと日本語はかなりinformation richな言語にカテゴライズされているように見える)。
