Japanese

#NLP#Dataset#AES(AutomatedEssayScoring)
Issue Date: 2024-11-28 Japanese-English Sentence Translation Exercises Dataset for Automatic Grading, Miura+, EACL24, 2024.03 CommentThis paper proposes the task of automatic assessment of Sentence Translation Exercises (STEs), that have been used in the early stage of L2 language l ... #Analysis#Efficiency/SpeedUp#Pretraining#Pocket#NLP#LanguageModel#Finetuning (SFT)
Issue Date: 2024-11-17 Balancing Speed and Stability: The Trade-offs of FP8 vs. BF16 Training in LLMs, Kazuki Fujii+, arXiv24 Comment元ポスト:https://x.com/okoge_kaz/status/1857639065421754525?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QFP8で継続的事前学習をするとスループットは向上するが、lossのスパイクを生じたり、downstreamタスクの性能がBF16よ ... #Article#NLP#DialogueGeneration#AudioProcessing
Issue Date: 2025-01-28 日本語Full-duplex音声対話システムの試作, 大橋+, J-Moshi

#Article#NLP#Dataset#LanguageModel#Evaluation
Issue Date: 2024-12-30 Preferred Generation Benchmark, pfnet-research, 2024.12 Comment参考:https://x.com/bilzrd/status/1873167934564311133?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q日本語プレプリント:https://jxiv.jst.go.jp/index.php/jxiv/preprint/view/1008arXi ... #Article#Survey#NLP#Dataset#LanguageModel#Evaluation#Repository#OpenWeightLLM#OpenSource
Issue Date: 2024-12-02 日本語LLMまとめ, LLM-jp, 2024.12 CommentLLM-jpによる日本語LLM(Encoder-Decoder系, BERT系, Bi-Encoders, Cross-Encodersを含む)のまとめ。テキスト生成に使うモデル、入力テキスト処理に使うモデル、Embedding作成に特化したモデル、視覚言語モデル、音声言語モデル、日本語LLM評価 ... #Article#Pocket#NLP#AES(AutomatedEssayScoring)
Issue Date: 2024-11-28 国語記述問題自動採点システムの開発と評価, Yutaka Ishii+, 日本教育工学会, 2024.05 #Article#Pretraining#NLP#LanguageModel#OpenWeightLLM
Issue Date: 2024-11-25 Sarashina2-8x70Bの公開, SB Intuitions, 2024.11 CommentMoE Layerの説明、Sparse Upcyclingの説明、MoEモデルを学習する際に、学習時の学習率の設定が大きすぎると初期に損失が増大し、小さすぎると損失の増大は防げるがlong runで学習した際の性能向上が小さかったこと、元のモデルのパラメータを毀損しないように、Upcyclingをし ... #Article#NLP#LanguageModel#OpenWeightLLM
Issue Date: 2024-11-09 sarashina2-8x70B, SBIntuitions, 2024.11 Commentプレスリリース:https://www.sbintuitions.co.jp/news/press/20241108_01/商用利用不可な点には注意アーキテクチャは70Bモデルx8のMixture of Experts(MoE)モデルカードによると、inferenceにはBF16で、A100 80G ... #Article#NLP#LanguageModel#OpenWeightLLM
Issue Date: 2024-10-04 Gemma-2-Baku, 2024.10 #Article#NLP#LanguageModel#OpenWeightLLM
Issue Date: 2024-10-04 Gemma-2-JPN, 2024.10 Comment日本語データでfinetuningされてGemma2 ... #Article#NLP#LanguageModel#OpenWeightLLM
Issue Date: 2024-09-25 LLM-jp-3 1.8B・3.7B・13B の公開, LLM.jp, 2024.09 CommentLLM-JP-Evalでの評価結果はこちら:https://huggingface.co/llm-jp/llm-jp-3-1.8b1.8Bのモデルが、モデルサイズに対して非常に性能が良いとのこと(確かに、3.8Bのモデルとの差があまりないように見える元ポスト:https://x.com/odashi ... #Article#NLP#Dataset#LanguageModel
Issue Date: 2024-09-25 LLM-jp Corpus v3, LLM.jp, 2024.09 CommentLLM-jp-3 #1418 の学習に利用されているコーパス ... #Article#Embeddings#NLP#LanguageModel
Issue Date: 2024-09-04 Ruri: Japanese General Text Embeddings, cl-nagoya, 2024.09 Comment元ツイート:https://x.com/hpp_ricecake/status/1831308092459643232?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q337Mパラメータのモデルで、同等のサイズのモデルをJMTEBで大きく上回る性能。LLMを用いて生成したデータを用いてCo ... #Article#Analysis#LanguageModel#OpenWeightLLM#Slide
Issue Date: 2024-09-03 LLMに日本語テキストを学習させる意義, Koshiro Saito+, 第261回自然言語処理研究発表会, 2024.08 Comment英日翻訳や日本特有の知識を問われるようなQAにおいて、日本語データによる学習の効果があることが示唆されている模様。たとえば、#1359 に示されている通り、Llama2における日本語データの割合は0.2%とかなので、英語圏のOpenLLMにおいて、日本語データの比率がどれだけ少ないかがわかる。 ... #Article#NLP#ProprietaryLLM
Issue Date: 2024-08-08 PLaMo-100B, PFN, 2024.08 Comment日本語のベンチマークでGPT4を超える性能を達成。SFT, DPOで学習。学習データは、Publicなもの、プログラムで作成したもの、LLM自身に作成させたものを利用した。また、最終的なモデルに複数の候補があったのでモデルマージで良いところ取りをした。DPOで利用するpreferenceデータは、 ...