Japanese
#Analysis#Efficiency/SpeedUp#Pretraining#Pocket#NLP#LanguageModel#Finetuning (SFT)
Issue Date: 2024-11-17 Balancing Speed and Stability: The Trade-offs of FP8 vs. BF16 Training in LLMs, Kazuki Fujii+, arXiv24 Comment元ポスト:https://x.com/okoge_kaz/status/1857639065421754525?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QFP8で継続的事前学習をするとスループットは向上するが、lossのスパイクを生じたり、downstreamタスクの性能がBF16よ ... #Article#NLP#LanguageModel#OpenWeightLLM
Issue Date: 2024-11-09 sarashina2-8x70B, SBIntuitions, 2024.11 Commentプレスリリース:https://www.sbintuitions.co.jp/news/press/20241108_01/商用利用不可な点には注意アーキテクチャは70Bモデルx8のMixture of Experts(MoE)モデルカードによると、inferenceにはBF16で、A100 80G ... #Article#NLP#LanguageModel#OpenWeightLLM
Issue Date: 2024-10-04 Gemma-2-Baku, 2024.10
Issue Date: 2024-11-17 Balancing Speed and Stability: The Trade-offs of FP8 vs. BF16 Training in LLMs, Kazuki Fujii+, arXiv24 Comment元ポスト:https://x.com/okoge_kaz/status/1857639065421754525?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QFP8で継続的事前学習をするとスループットは向上するが、lossのスパイクを生じたり、downstreamタスクの性能がBF16よ ... #Article#NLP#LanguageModel#OpenWeightLLM
Issue Date: 2024-11-09 sarashina2-8x70B, SBIntuitions, 2024.11 Commentプレスリリース:https://www.sbintuitions.co.jp/news/press/20241108_01/商用利用不可な点には注意アーキテクチャは70Bモデルx8のMixture of Experts(MoE)モデルカードによると、inferenceにはBF16で、A100 80G ... #Article#NLP#LanguageModel#OpenWeightLLM
Issue Date: 2024-10-04 Gemma-2-Baku, 2024.10
#Article#NLP#LanguageModel#OpenWeightLLM
Issue Date: 2024-10-04 Gemma-2-JPN, 2024.10 Comment日本語データでfinetuningされてGemma2 ... #Article#NLP#LanguageModel#OpenWeightLLM
Issue Date: 2024-09-25 LLM-jp-3 1.8B・3.7B・13B の公開, LLM.jp, 2024.09 CommentLLM-JP-Evalでの評価結果はこちら:https://huggingface.co/llm-jp/llm-jp-3-1.8b1.8Bのモデルが、モデルサイズに対して非常に性能が良いとのこと(確かに、3.8Bのモデルとの差があまりないように見える元ポスト:https://x.com/odashi ... #Article#NLP#Dataset#LanguageModel
Issue Date: 2024-09-25 LLM-jp Corpus v3, LLM.jp, 2024.09 CommentLLM-jp-3 #1418 の学習に利用されているコーパス ... #Article#Embeddings#NLP#LanguageModel
Issue Date: 2024-09-04 Ruri: Japanese General Text Embeddings, cl-nagoya, 2024.09 Comment元ツイート:https://x.com/hpp_ricecake/status/1831308092459643232?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q337Mパラメータのモデルで、同等のサイズのモデルをJMTEBで大きく上回る性能。LLMを用いて生成したデータを用いてCo ... #Article#Analysis#LanguageModel#OpenWeightLLM#Slide
Issue Date: 2024-09-03 LLMに日本語テキストを学習させる意義, Koshiro Saito+, 第261回自然言語処理研究発表会, 2024.08 Comment英日翻訳や日本特有の知識を問われるようなQAにおいて、日本語データによる学習の効果があることが示唆されている模様。たとえば、#1359 に示されている通り、Llama2における日本語データの割合は0.2%とかなので、英語圏のOpenLLMにおいて、日本語データの比率がどれだけ少ないかがわかる。 ... #Article#NLP#ProprietaryLLM
Issue Date: 2024-08-08 PLaMo-100B, PFN, 2024.08 Comment日本語のベンチマークでGPT4を超える性能を達成。SFT, DPOで学習。学習データは、Publicなもの、プログラムで作成したもの、LLM自身に作成させたものを利用した。また、最終的なモデルに複数の候補があったのでモデルマージで良いところ取りをした。DPOで利用するpreferenceデータは、 ...
Issue Date: 2024-10-04 Gemma-2-JPN, 2024.10 Comment日本語データでfinetuningされてGemma2 ... #Article#NLP#LanguageModel#OpenWeightLLM
Issue Date: 2024-09-25 LLM-jp-3 1.8B・3.7B・13B の公開, LLM.jp, 2024.09 CommentLLM-JP-Evalでの評価結果はこちら:https://huggingface.co/llm-jp/llm-jp-3-1.8b1.8Bのモデルが、モデルサイズに対して非常に性能が良いとのこと(確かに、3.8Bのモデルとの差があまりないように見える元ポスト:https://x.com/odashi ... #Article#NLP#Dataset#LanguageModel
Issue Date: 2024-09-25 LLM-jp Corpus v3, LLM.jp, 2024.09 CommentLLM-jp-3 #1418 の学習に利用されているコーパス ... #Article#Embeddings#NLP#LanguageModel
Issue Date: 2024-09-04 Ruri: Japanese General Text Embeddings, cl-nagoya, 2024.09 Comment元ツイート:https://x.com/hpp_ricecake/status/1831308092459643232?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q337Mパラメータのモデルで、同等のサイズのモデルをJMTEBで大きく上回る性能。LLMを用いて生成したデータを用いてCo ... #Article#Analysis#LanguageModel#OpenWeightLLM#Slide
Issue Date: 2024-09-03 LLMに日本語テキストを学習させる意義, Koshiro Saito+, 第261回自然言語処理研究発表会, 2024.08 Comment英日翻訳や日本特有の知識を問われるようなQAにおいて、日本語データによる学習の効果があることが示唆されている模様。たとえば、#1359 に示されている通り、Llama2における日本語データの割合は0.2%とかなので、英語圏のOpenLLMにおいて、日本語データの比率がどれだけ少ないかがわかる。 ... #Article#NLP#ProprietaryLLM
Issue Date: 2024-08-08 PLaMo-100B, PFN, 2024.08 Comment日本語のベンチマークでGPT4を超える性能を達成。SFT, DPOで学習。学習データは、Publicなもの、プログラムで作成したもの、LLM自身に作成させたものを利用した。また、最終的なモデルに複数の候補があったのでモデルマージで良いところ取りをした。DPOで利用するpreferenceデータは、 ...