Japanese

#NLP#Dataset#AES(AutomatedEssayScoring)
Issue Date: 2024-11-28 Japanese-English Sentence Translation Exercises Dataset for Automatic Grading, Miura+, EACL24, 2024.03 CommentThis paper proposes the task of automatic assessment of Sentence Translation Exercises (STEs), that have been used in the early stage of L2 language l ... #Analysis#EfficiencyImprovement#Pretraining#Pocket#NLP#LanguageModel#Supervised-FineTuning (SFT)
Issue Date: 2024-11-17 Balancing Speed and Stability: The Trade-offs of FP8 vs. BF16 Training in LLMs, Kazuki Fujii+, arXiv24 Comment元ポスト:https://x.com/okoge_kaz/status/1857639065421754525?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QFP8で継続的事前学習をするとスループットは向上するが、lossのスパイクを生じたり、downstreamタスクの性能がBF16よ ... #Article#NLP#LanguageModel#OpenWeight
Issue Date: 2025-06-25 Swallow LLM Leaderboard, Swallow LLM Team Comment関連:#1096#1055 ... #Article#Tutorial#Pretraining#NLP#Dataset#LanguageModel#Evaluation#Blog#OpenWeight#PostTraining
Issue Date: 2025-06-25 LLM-jp-3.1 シリーズ instruct4 の公開, LLM-jp, 2025.05 Comment関連#2089#2090#2091 ... #Article#ComputerVision#NLP#Dataset#LanguageModel#AWS#MulltiModal#Blog
Issue Date: 2025-05-20 Webスケールの日本語-画像のインターリーブデータセット「MOMIJI」の構築 _巨大テキストデータをAWSで高速に処理するパイプライン, Turing (studio_graph), 2025.05 Comment貴重なVLMデータセット構築ノウハウ青塗りのフィルタリングタスクを具体的にどうやっているのか気になる ... #Article#Embeddings#NLP#LanguageModel#pretrained-LM
Issue Date: 2025-02-12 modernbert-ja-130m, SB Intuitions, 2025.02 CommentThis repository provides Japanese ModernBERT trained by SB Intuitions.ModernBERT is a new variant of the BERT model that combines local and global att ... #Article#NLP#DialogueGeneration#SpeechProcessing
Issue Date: 2025-01-28 日本語Full-duplex音声対話システムの試作, 大橋+, J-Moshi #Article#NLP#Dataset#LanguageModel#Evaluation
Issue Date: 2024-12-30 Preferred Generation Benchmark, pfnet-research, 2024.12 Comment参考:https://x.com/bilzrd/status/1873167934564311133?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q日本語プレプリント:https://jxiv.jst.go.jp/index.php/jxiv/preprint/view/1008arXi ... #Article#Tools#NLP#Dataset#LanguageModel#Blog#OpenWeight
Issue Date: 2024-12-24 完全にオープンな約1,720億パラメータ(GPT-3級)の大規模言語モデル 「llm-jp-3-172b-instruct3」を一般公開 ~GPT-3.5を超える性能を達成~ , NII, 2024.12 CommentGPT3.5と同程度のパラメータ数のコーパス、モデル、ツール、全てを公開。学習データまで含めてオープンなモデルとしては世界最大規模とのこと。Instructionチューニング済みのモデルはライセンスを読むと、ライセンスに記述されている内容を遵守すれば、誰でも(日本人なら18歳以上とかはあるが)アクセ ... #Article#Survey#NLP#Dataset#LanguageModel#Evaluation#Repository#OpenWeight#OpenSource
Issue Date: 2024-12-02 日本語LLMまとめ, LLM-jp, 2024.12 CommentLLM-jpによる日本語LLM(Encoder-Decoder系, BERT系, Bi-Encoders, Cross-Encodersを含む)のまとめ。テキスト生成に使うモデル、入力テキスト処理に使うモデル、Embedding作成に特化したモデル、視覚言語モデル、音声言語モデル、日本語LLM評価 ... #Article#Pocket#NLP#AES(AutomatedEssayScoring)
Issue Date: 2024-11-28 国語記述問題自動採点システムの開発と評価, Yutaka Ishii+, 日本教育工学会, 2024.05 #Article#Pretraining#NLP#LanguageModel#OpenWeight
Issue Date: 2024-11-25 Sarashina2-8x70Bの公開, SB Intuitions, 2024.11 CommentMoE Layerの説明、Sparse Upcyclingの説明、MoEモデルを学習する際に、学習時の学習率の設定が大きすぎると初期に損失が増大し、小さすぎると損失の増大は防げるがlong runで学習した際の性能向上が小さかったこと、元のモデルのパラメータを毀損しないように、Upcyclingをし ... #Article#NLP#LanguageModel#OpenWeight
Issue Date: 2024-11-09 sarashina2-8x70B, SBIntuitions, 2024.11 Commentプレスリリース:https://www.sbintuitions.co.jp/news/press/20241108_01/商用利用不可な点には注意アーキテクチャは70Bモデルx8のMixture of Experts(MoE)モデルカードによると、inferenceにはBF16で、A100 80G ... #Article#NLP#LanguageModel#OpenWeight
Issue Date: 2024-10-04 Gemma-2-Baku, 2024.10 #Article#NLP#LanguageModel#OpenWeight
Issue Date: 2024-10-04 Gemma-2-JPN, 2024.10 Comment日本語データでfinetuningされてGemma2 ... #Article#NLP#LanguageModel#OpenWeight
Issue Date: 2024-09-25 LLM-jp-3 1.8B・3.7B・13B の公開, LLM.jp, 2024.09 CommentLLM-JP-Evalでの評価結果はこちら:https://huggingface.co/llm-jp/llm-jp-3-1.8b1.8Bのモデルが、モデルサイズに対して非常に性能が良いとのこと(確かに、3.8Bのモデルとの差があまりないように見える元ポスト:https://x.com/odashi ... #Article#NLP#Dataset#LanguageModel
Issue Date: 2024-09-25 LLM-jp Corpus v3, LLM.jp, 2024.09 CommentLLM-jp-3 #1418 の学習に利用されているコーパス ... #Article#Embeddings#NLP#LanguageModel
Issue Date: 2024-09-04 Ruri: Japanese General Text Embeddings, cl-nagoya, 2024.09 Comment元ツイート:https://x.com/hpp_ricecake/status/1831308092459643232?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q337Mパラメータのモデルで、同等のサイズのモデルをJMTEBで大きく上回る性能。LLMを用いて生成したデータを用いてCo ... #Article#Analysis#LanguageModel#OpenWeight#Slide
Issue Date: 2024-09-03 LLMに日本語テキストを学習させる意義, Koshiro Saito+, 第261回自然言語処理研究発表会, 2024.08 Comment英日翻訳や日本特有の知識を問われるようなQAにおいて、日本語データによる学習の効果があることが示唆されている模様。たとえば、#1359 に示されている通り、Llama2における日本語データの割合は0.2%とかなので、英語圏のOpenLLMにおいて、日本語データの比率がどれだけ少ないかがわかる。 ... #Article#NLP#LanguageModel#ProprietaryLLM
Issue Date: 2024-08-08 PLaMo-100B, PFN, 2024.08 Comment日本語のベンチマークでGPT4を超える性能を達成。SFT, DPOで学習。学習データは、Publicなもの、プログラムで作成したもの、LLM自身に作成させたものを利用した。また、最終的なモデルに複数の候補があったのでモデルマージで良いところ取りをした。DPOで利用するpreferenceデータは、 ... #Article#Pretraining#Pocket#NLP#Dataset#LanguageModel#InstructionTuning#Repository
Issue Date: 2023-12-11 A Review of Public Japanese Training Sets, shisa, 2023.12