LowResourceに関する論文・技術記事メモの一覧

LowResource

[Paper Note] DiaMoE-TTS: A Unified IPA-Based Dialect TTS Framework with Mixture-of-Experts and Parameter-Efficient Zero-Shot Adaptation, Ziqi Chen+, arXiv'25, 2025.09

Paper/Blog Link My Issue
#Transformer #SpeechProcessing #DiffusionModel #MoE(Mixture-of-Experts) #FlowMatching #TTS #ConvolutionalModels Issue Date: 2025-10-18 GPT Summary- DiaMoE-TTSは、方言の音声合成のためのIPAベースのフレームワークを提案し、音声表現の標準化と曖昧さの解決を図る。F5-TTSアーキテクチャを基に、方言に対応したMixture-of-Expertsを導入し、効率的なパラメータ適応を実現。スケーラブルでオープンデータ駆動のアプローチにより、数時間のデータで未見の方言や専門的なドメインに対して自然で表現力豊かな音声生成を達成。 Comment

元ポスト:

Loading…

[Paper Note] Leveraging High-Resource English Corpora for Cross-lingual Domain Adaptation in Low-Resource Japanese Medicine via Continued Pretraining, Kobayashi+, EMNLP'25 Findings

Paper/Blog Link My Issue
#Analysis #Pretraining #DomainAdaptation #NLP #LanguageModel #CrossLingual #Japanese #DataMixture #Medical Issue Date: 2025-09-24 GPT Summary- 低リソース言語の医療コーパスでは、PLMsの跨言語適応が難しい。本研究は、日本語と英語の医療知識ベンチマークにおける言語的特徴がパフォーマンスに与える影響を分析。異なる比率の英語と日本語テキストを用いた多言語コーパスでの継続的事前学習を通じて、専門知識を活用しつつターゲット言語の表現をカバーする最適化手法を提案。これにより、低リソース言語の専門分野での多言語モデル開発に寄与することを目指す。 Comment

元ポスト:

Loading…

[Paper Note] SSA-COMET: Do LLMs Outperform Learned Metrics in Evaluating MT for Under-Resourced African Languages?, Senyu Li+, EMNLP'25, 2025.06

Paper/Blog Link My Issue
#MachineTranslation #Metrics #NLP #Dataset #LanguageModel #Evaluation #Reference-free #EMNLP Issue Date: 2025-09-24 GPT Summary- アフリカの言語における機械翻訳の品質評価は依然として課題であり、既存の指標は限られた性能を示しています。本研究では、13のアフリカ言語ペアを対象とした大規模な人間注釈付きMT評価データセット「SSA-MTE」を紹介し、63,000以上の文レベルの注釈を含んでいます。これに基づき、改良された評価指標「SSA-COMET」と「SSA-COMET-QE」を開発し、最先端のLLMを用いたプロンプトベースのアプローチをベンチマークしました。実験結果は、SSA-COMETがAfriCOMETを上回り、特に低リソース言語で競争力があることを示しました。すべてのリソースはオープンライセンスで公開されています。 Comment

元ポスト:

Loading…

[Paper Note] Google's Multilingual Neural Machine Translation System: Enabling Zero-Shot Translation, Melvin Johnson+, TACL'17, 2016.11

Paper/Blog Link My Issue
#NeuralNetwork #MachineTranslation #NLP #TransferLearning #MultiLingual #Zero/FewShotLearning #TACL #Encoder-Decoder Issue Date: 2025-11-19 GPT Summary- 単一のNMTモデルを用いて多言語翻訳を実現するシンプルな手法を提案。入力文の先頭に人工トークンを追加することでターゲット言語を指定し、モデルのアーキテクチャは変更せずに共有語彙を使用。これにより、パラメータを増やさずに翻訳品質を向上させ、WMT'14およびWMT'15ベンチマークで最先端の結果を達成。訓練中に見たことのない言語ペア間での暗黙のブリッジングを学習し、転移学習とゼロショット翻訳の可能性を示す。 Comment

バックボーン:
- [Paper Note] Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation, Yonghui Wu+, arXiv'16, 2016.09