Japanese
#NLP
#LanguageModel
#Supervised-FineTuning (SFT)
#OOD
#DiseaseNameRecognition
Issue Date: 2025-07-10 [Paper Note] Toward Cross-Hospital Deployment of Natural Language Processing Systems: Model Development and Validation of Fine-Tuned Large Language Models for Disease Name Recognition in Japanese, Shimizu+, JMIR'25 Comment元ポスト:https://x.com/aramaki/status/1942902940337099254?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q #Embeddings #Pocket #NLP #LanguageModel #RepresentationLearning #pretrained-LM
Issue Date: 2025-06-25 [Paper Note] llm-jp-modernbert: A ModernBERT Model Trained on a Large-Scale Japanese Corpus with Long Context Length, Issa Sugiura+, arXiv'25 SummaryModernBERTモデル(llm-jp-modernbert)は、8192トークンのコンテキスト長を持つ日本語コーパスで訓練され、フィルマスクテスト評価で良好な結果を示す。下流タスクでは既存のベースラインを上回らないが、コンテキスト長の拡張効果を分析し、文の埋め込みや訓練中の遷移を調査。再現性を支援するために、モデルと評価コードを公開。 Comment参考:
・1761 #Pocket #NLP #Dataset #LanguageModel #Alignment #Safety #PostTraining
Issue Date: 2025-06-25 [Paper Note] AnswerCarefully: A Dataset for Improving the Safety of Japanese LLM Output, Hisami Suzuki+, arXiv'25 Summary日本のLLMの安全性を高めるためのデータセット「AnswerCarefully」を紹介。1,800組の質問と参照回答から成り、リスクカテゴリをカバーしつつ日本の文脈に合わせて作成。微調整により出力の安全性が向上し、12のLLMの安全性評価結果も報告。英語翻訳と注釈を提供し、他言語でのデータセット作成を促進。 CommentBlog:https://llmc.nii.ac.jp/answercarefully-dataset/
Issue Date: 2025-07-10 [Paper Note] Toward Cross-Hospital Deployment of Natural Language Processing Systems: Model Development and Validation of Fine-Tuned Large Language Models for Disease Name Recognition in Japanese, Shimizu+, JMIR'25 Comment元ポスト:https://x.com/aramaki/status/1942902940337099254?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q #Embeddings #Pocket #NLP #LanguageModel #RepresentationLearning #pretrained-LM
Issue Date: 2025-06-25 [Paper Note] llm-jp-modernbert: A ModernBERT Model Trained on a Large-Scale Japanese Corpus with Long Context Length, Issa Sugiura+, arXiv'25 SummaryModernBERTモデル(llm-jp-modernbert)は、8192トークンのコンテキスト長を持つ日本語コーパスで訓練され、フィルマスクテスト評価で良好な結果を示す。下流タスクでは既存のベースラインを上回らないが、コンテキスト長の拡張効果を分析し、文の埋め込みや訓練中の遷移を調査。再現性を支援するために、モデルと評価コードを公開。 Comment参考:
・1761 #Pocket #NLP #Dataset #LanguageModel #Alignment #Safety #PostTraining
Issue Date: 2025-06-25 [Paper Note] AnswerCarefully: A Dataset for Improving the Safety of Japanese LLM Output, Hisami Suzuki+, arXiv'25 Summary日本のLLMの安全性を高めるためのデータセット「AnswerCarefully」を紹介。1,800組の質問と参照回答から成り、リスクカテゴリをカバーしつつ日本の文脈に合わせて作成。微調整により出力の安全性が向上し、12のLLMの安全性評価結果も報告。英語翻訳と注釈を提供し、他言語でのデータセット作成を促進。 CommentBlog:https://llmc.nii.ac.jp/answercarefully-dataset/
#NLP
#Dataset
#read-later
#Trustfulness
Issue Date: 2025-05-10
日本語TrustfulQAの構築, 中村+, NLP'24
#NLP
#Dataset
#AES(AutomatedEssayScoring)
Issue Date: 2024-11-28
Japanese-English Sentence Translation Exercises Dataset for Automatic Grading, Miura+, EACL'24, 2024.03
Summary第二言語学習の文翻訳演習の自動評価タスクを提案し、評価基準に基づいて学生の回答を採点する。日本語と英語の間で3,498の学生の回答を含むデータセットを作成。ファインチューニングされたBERTモデルは約90%のF1スコアで正しい回答を分類するが、誤った回答は80%未満。少数ショット学習を用いたGPT-3.5はBERTより劣る結果を示し、提案タスクが大規模言語モデルにとっても難しいことを示す。
CommentSTEsの図解。分かりやすい。いわゆる日本人が慣れ親しんでいる和文英訳、英文和訳演習も、このタスクの一種だということなのだろう。2-shotのGPT4とFinetuningしたBERTが同等程度の性能に見えて、GPT3.5では5shotしても勝てていない模様。興味深い。
#Analysis
#EfficiencyImprovement
#Pretraining
#Pocket
#NLP
#LanguageModel
#Supervised-FineTuning (SFT)
#read-later
Issue Date: 2024-11-17
Balancing Speed and Stability: The Trade-offs of FP8 vs. BF16 Training in LLMs, Kazuki Fujii+, arXiv'24
Summary大規模言語モデル(LLMs)は、その言語理解能力と適用可能性から注目を集めており、特にLlama 3シリーズは4050億パラメータを持つ。トレーニングの効率化が求められる中、NVIDIAのH100 GPUはFP8フォーマットを導入し、トレーニング時間を短縮する可能性がある。初期研究ではFP8が性能を損なわずに効率を向上させることが示唆されているが、トレーニングの安定性や下流タスクへの影響はまだ不明である。本研究は、LLMsのトレーニングにおけるBF16とFP8のトレードオフを探る。
Comment元ポスト:https://x.com/okoge_kaz/status/1857639065421754525?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QFP8で継続的事前学習をするとスループットは向上するが、lossのスパイクを生じたり、downstreamタスクの性能がBF16よりも低下したりする(日本語と英語の両方)との報告のようである。現状アブストと付録しか記載がないが、内容はこれから更新されるのだろうか。
#Article
#NLP
#LanguageModel
#Evaluation
#OpenWeight
#ProprietaryLLM
Issue Date: 2025-08-20
Swallow LLM Leaderboard v2, Swallow LLM Team, 2025.08
Comment元ポスト:https://x.com/chokkanorg/status/1958063716110594255?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QLLMの性能を公平な条件で評価するために、従来のnon thinkingモデルで採用していた方法はthinkingモデルでは過小評価につながることが明らかになった(e.g., non thinkingモデルはzero shotを標準とするが、thinkingモデルではfewshot、chat templateの採用等)ため、日本語/英語ともに信頼の高い6つのベンチマークを採用し、thinkingモデルに対して公平な統一的な評価フレームワークを確立。主要なプロプライエタリ、OpenLLMに対して評価を実施し、リーダーボードとして公開。Reasoningモデルに対する最新の日本語性能を知りたい場合はこちらを参照するのが良いと思われる。評価に用いられたフレームワークはこちら:
https://github.com/swallow-llm/swallow-evaluation-instruct主要モデルの性能比較:
https://x.com/chokkanorg/status/1958063946826428424?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q #Article #NLP #LanguageModel #Alignment #RewardModel Issue Date: 2025-08-18 ca-reward-3b-ja, cyberagent, 2025.05 Comment軽量な日本語のreward model(3B)。ベースモデルとして sbintuitions/sarashina2.2-3b-instruct-v0.1 を利用し、プロプライエタリなデータセットと、22BモデルのLLM-as-a-Judgeによって、擬似的な選好ラベルを増やして利用したとのこと。元ポスト:https://x.com/alfredplpl/status/1957065303650640337?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q #Article #NLP #LanguageModel #Evaluation #Slide #SoftwareEngineering #Admin'sPick Issue Date: 2025-07-16 論文では語られないLLM開発において重要なこと Swallow Projectを通して, Kazuki Fujii, NLPコロキウム, 2025.07 Comment独自LLM開発の私の想像など遥かに超える非常に困難な側面が記述されており、これをできるのはあまりにもすごいという感想を抱いた(小並感だけど本当にすごいと思う。すごいとしか言いようがない) #Article #NLP #LanguageModel #OpenWeight Issue Date: 2025-06-25 Swallow LLM Leaderboard, Swallow LLM Team Comment関連:
・1096
・1055 #Article #Tutorial #Pretraining #NLP #Dataset #LanguageModel #Evaluation #Blog #OpenWeight #PostTraining Issue Date: 2025-06-25 LLM-jp-3.1 シリーズ instruct4 の公開, LLM-jp, 2025.05 Comment関連
・2089
・2090
・2091 #Article #ComputerVision #NLP #Dataset #LanguageModel #AWS #MulltiModal #Blog Issue Date: 2025-05-20 Webスケールの日本語-画像のインターリーブデータセット「MOMIJI」の構築 _巨大テキストデータをAWSで高速に処理するパイプライン, Turing (studio_graph), 2025.05 Comment貴重なVLMデータセット構築ノウハウ青塗りのフィルタリングタスクを具体的にどうやっているのか気になる #Article #Embeddings #NLP #LanguageModel #RepresentationLearning #pretrained-LM Issue Date: 2025-02-12 modernbert-ja-130m, SB Intuitions, 2025.02 SummarySB Intuitionsが訓練した日本語のModernBERTを提供。これは、ローカルとグローバルな注意機構を組み合わせた新しいBERTモデルで、長いシーケンスを効率的に処理可能。ModernBERT-Ja-130Mは高品質な日本語と英語のコーパスで訓練され、語彙サイズは102,400、シーケンス長は8,192。 CommentMIT Licence元ポスト:https://x.com/sbintuitions/status/1889587801706078580?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q・1606 #Article #NLP #DialogueGeneration #SpeechProcessing Issue Date: 2025-01-28 日本語Full-duplex音声対話システムの試作, 大橋+, J-Moshi #Article #NLP #Dataset #LanguageModel #Evaluation Issue Date: 2024-12-30 Preferred Generation Benchmark, pfnet-research, 2024.12 Comment参考:https://x.com/bilzrd/status/1873167934564311133?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q日本語プレプリント:https://jxiv.jst.go.jp/index.php/jxiv/preprint/view/1008arXivはこれからっぽい #Article #Tools #NLP #Dataset #LanguageModel #Blog #OpenWeight Issue Date: 2024-12-24 完全にオープンな約1,720億パラメータ(GPT-3級)の大規模言語モデル 「llm-jp-3-172b-instruct3」を一般公開 ~GPT-3.5を超える性能を達成~ , NII, 2024.12 CommentGPT3.5と同程度のパラメータ数のコーパス、モデル、ツール、全てを公開。学習データまで含めてオープンなモデルとしては世界最大規模とのこと。Instructionチューニング済みのモデルはライセンスを読むと、ライセンスに記述されている内容を遵守すれば、誰でも(日本人なら18歳以上とかはあるが)アクセス可能、用途の制限(商用・非商用問わず)なく利用でき、かつ再配布や派生物の生成などが許されているように見える。
が、baseモデルの方はコンタクト情報を提供のうえ承認を受けないと利用できない模様。また、再配布と一部の使途に制限がある模様。
SNSではオープンソースではないなどという言説も出ており、それはbaseモデルの方を指しているのだろうか?よくわからない。実用上はinstructionチューニング済みのモデルの方がbaseモデルよりも使いやすいと思うので、問題ない気もする。やはりbaseとinstructでライセンスは2種類あるとのこと: https://x.com/odashi_t/status/1871508348086214685?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q #Article #Survey #NLP #Dataset #LanguageModel #Evaluation #Repository #OpenWeight #OpenSource Issue Date: 2024-12-02 日本語LLMまとめ, LLM-jp, 2024.12 CommentLLM-jpによる日本語LLM(Encoder-Decoder系, BERT系, Bi-Encoders, Cross-Encodersを含む)のまとめ。
テキスト生成に使うモデル、入力テキスト処理に使うモデル、Embedding作成に特化したモデル、視覚言語モデル、音声言語モデル、日本語LLM評価ベンチマーク/データセットが、汎用とドメイン特化型に分けてまとめられている。
各モデルやアーキテクチャの原論文、学習手法の原論文もまとめられている。すごい量だ…。 #Article #Pocket #NLP #AES(AutomatedEssayScoring) Issue Date: 2024-11-28 国語記述問題自動採点システムの開発と評価, Yutaka Ishii+, 日本教育工学会, 2024.05 #Article #Pretraining #NLP #LanguageModel #OpenWeight Issue Date: 2024-11-25 Sarashina2-8x70Bの公開, SB Intuitions, 2024.11 CommentMoE Layerの説明、Sparse Upcyclingの説明、MoEモデルを学習する際に、学習時の学習率の設定が大きすぎると初期に損失が増大し、小さすぎると損失の増大は防げるがlong runで学習した際の性能向上が小さかったこと、元のモデルのパラメータを毀損しないように、Upcyclingをした元モデルの最終的な学習率を踏襲して学習をし、学習率をさらに減衰させていったこと、などが記載されている。
また、性能評価として同等のactivation parameter数を持つモデルと日本語のQAタスクで比較した結果も載っている。
・1546MoE Layerについては
・1204
も参照のこと #Article #NLP #LanguageModel #OpenWeight Issue Date: 2024-11-09 sarashina2-8x70B, SBIntuitions, 2024.11 Commentプレスリリース:https://www.sbintuitions.co.jp/news/press/20241108_01/・商用利用不可な点には注意
・アーキテクチャは70Bモデルx8のMixture of Experts(MoE)
・モデルカードによると、inferenceにはBF16で、A100 80GB or H100が16基必要っぽいMoEを利用したLLMについては、1204 を参照のこと。 #Article #NLP #LanguageModel #OpenWeight Issue Date: 2024-10-04 Gemma-2-Baku, 2024.10 #Article #NLP #LanguageModel #OpenWeight Issue Date: 2024-10-04 Gemma-2-JPN, 2024.10 Comment日本語データでfinetuningされてGemma2 #Article #NLP #LanguageModel #OpenWeight Issue Date: 2024-09-25 LLM-jp-3 1.8B・3.7B・13B の公開, LLM.jp, 2024.09 CommentLLM-JP-Evalでの評価結果はこちら:https://huggingface.co/llm-jp/llm-jp-3-1.8b1.8Bのモデルが、モデルサイズに対して非常に性能が良いとのこと(確かに、3.8Bのモデルとの差があまりないように見える
元ポスト:https://x.com/odashi_t/status/1838814594514718878?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QアーキテクチャはLlama2とのことなので、vLLMでも動作させられる模様 #Article #NLP #Dataset #LanguageModel Issue Date: 2024-09-25 LLM-jp Corpus v3, LLM.jp, 2024.09 CommentLLM-jp-3 1418 の学習に利用されているコーパス #Article #Embeddings #NLP #LanguageModel #RepresentationLearning Issue Date: 2024-09-04 Ruri: Japanese General Text Embeddings, cl-nagoya, 2024.09 Comment元ツイート:https://x.com/hpp_ricecake/status/1831308092459643232?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q337Mパラメータのモデルで、同等のサイズのモデルをJMTEBで大きく上回る性能。LLMを用いて生成したデータを用いてContrastive Learning, その後高品質なデータでFinetuningを実施したとのこと。JMTEB上では、パラメータサイズ不明(だがおそらく桁違いに大きい)のOpenAI/text-embedding-3-largeと同等の性能に見えるが、1373 などを考慮すると、日本特有の知識を問うQAなどはマルチリンガルなモデルは弱そうなので、その辺がどれほど高い性能を持っているのかは興味がある。
LLMで人工的に生成したデータでは、生成に利用したLLMが持つ知識しか表層的には現れないと思うので何を利用したかによるのと、高品質なラベルデータにその辺がどの程度含まれているか。最大sequence長は1012なので、より長い系列をBERTで埋め込みたい場合はRetrievaBERT 1323 (最大sequence長2048)も検討の余地がある。開発者の方からテクニカルレポートが出た
https://arxiv.org/abs/2409.07737 #Article #Analysis #LanguageModel #OpenWeight #Slide Issue Date: 2024-09-03 LLMに日本語テキストを学習させる意義, Koshiro Saito+, 第261回自然言語処理研究発表会, 2024.08 Comment英日翻訳や日本特有の知識を問われるようなQAにおいて、日本語データによる学習の効果があることが示唆されている模様。
たとえば、1359 に示されている通り、Llama2における日本語データの割合は0.2%とかなので、英語圏のOpenLLMにおいて、日本語データの比率がどれだけ少ないかがわかる。 #Article #NLP #LanguageModel #ProprietaryLLM Issue Date: 2024-08-08 PLaMo-100B, PFN, 2024.08 Comment日本語のベンチマークでGPT4を超える性能を達成。
SFT, DPOで学習。学習データは、Publicなもの、プログラムで作成したもの、LLM自身に作成させたものを利用した。また、最終的なモデルに複数の候補があったのでモデルマージで良いところ取りをした。DPOで利用するpreferenceデータは、事後学習途中のモデルによって自動生成。 #Article #Pretraining #Pocket #NLP #Dataset #LanguageModel #InstructionTuning #Repository Issue Date: 2023-12-11 A Review of Public Japanese Training Sets, shisa, 2023.12
https://github.com/swallow-llm/swallow-evaluation-instruct主要モデルの性能比較:
https://x.com/chokkanorg/status/1958063946826428424?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q #Article #NLP #LanguageModel #Alignment #RewardModel Issue Date: 2025-08-18 ca-reward-3b-ja, cyberagent, 2025.05 Comment軽量な日本語のreward model(3B)。ベースモデルとして sbintuitions/sarashina2.2-3b-instruct-v0.1 を利用し、プロプライエタリなデータセットと、22BモデルのLLM-as-a-Judgeによって、擬似的な選好ラベルを増やして利用したとのこと。元ポスト:https://x.com/alfredplpl/status/1957065303650640337?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q #Article #NLP #LanguageModel #Evaluation #Slide #SoftwareEngineering #Admin'sPick Issue Date: 2025-07-16 論文では語られないLLM開発において重要なこと Swallow Projectを通して, Kazuki Fujii, NLPコロキウム, 2025.07 Comment独自LLM開発の私の想像など遥かに超える非常に困難な側面が記述されており、これをできるのはあまりにもすごいという感想を抱いた(小並感だけど本当にすごいと思う。すごいとしか言いようがない) #Article #NLP #LanguageModel #OpenWeight Issue Date: 2025-06-25 Swallow LLM Leaderboard, Swallow LLM Team Comment関連:
・1096
・1055 #Article #Tutorial #Pretraining #NLP #Dataset #LanguageModel #Evaluation #Blog #OpenWeight #PostTraining Issue Date: 2025-06-25 LLM-jp-3.1 シリーズ instruct4 の公開, LLM-jp, 2025.05 Comment関連
・2089
・2090
・2091 #Article #ComputerVision #NLP #Dataset #LanguageModel #AWS #MulltiModal #Blog Issue Date: 2025-05-20 Webスケールの日本語-画像のインターリーブデータセット「MOMIJI」の構築 _巨大テキストデータをAWSで高速に処理するパイプライン, Turing (studio_graph), 2025.05 Comment貴重なVLMデータセット構築ノウハウ青塗りのフィルタリングタスクを具体的にどうやっているのか気になる #Article #Embeddings #NLP #LanguageModel #RepresentationLearning #pretrained-LM Issue Date: 2025-02-12 modernbert-ja-130m, SB Intuitions, 2025.02 SummarySB Intuitionsが訓練した日本語のModernBERTを提供。これは、ローカルとグローバルな注意機構を組み合わせた新しいBERTモデルで、長いシーケンスを効率的に処理可能。ModernBERT-Ja-130Mは高品質な日本語と英語のコーパスで訓練され、語彙サイズは102,400、シーケンス長は8,192。 CommentMIT Licence元ポスト:https://x.com/sbintuitions/status/1889587801706078580?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q・1606 #Article #NLP #DialogueGeneration #SpeechProcessing Issue Date: 2025-01-28 日本語Full-duplex音声対話システムの試作, 大橋+, J-Moshi #Article #NLP #Dataset #LanguageModel #Evaluation Issue Date: 2024-12-30 Preferred Generation Benchmark, pfnet-research, 2024.12 Comment参考:https://x.com/bilzrd/status/1873167934564311133?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q日本語プレプリント:https://jxiv.jst.go.jp/index.php/jxiv/preprint/view/1008arXivはこれからっぽい #Article #Tools #NLP #Dataset #LanguageModel #Blog #OpenWeight Issue Date: 2024-12-24 完全にオープンな約1,720億パラメータ(GPT-3級)の大規模言語モデル 「llm-jp-3-172b-instruct3」を一般公開 ~GPT-3.5を超える性能を達成~ , NII, 2024.12 CommentGPT3.5と同程度のパラメータ数のコーパス、モデル、ツール、全てを公開。学習データまで含めてオープンなモデルとしては世界最大規模とのこと。Instructionチューニング済みのモデルはライセンスを読むと、ライセンスに記述されている内容を遵守すれば、誰でも(日本人なら18歳以上とかはあるが)アクセス可能、用途の制限(商用・非商用問わず)なく利用でき、かつ再配布や派生物の生成などが許されているように見える。
が、baseモデルの方はコンタクト情報を提供のうえ承認を受けないと利用できない模様。また、再配布と一部の使途に制限がある模様。
SNSではオープンソースではないなどという言説も出ており、それはbaseモデルの方を指しているのだろうか?よくわからない。実用上はinstructionチューニング済みのモデルの方がbaseモデルよりも使いやすいと思うので、問題ない気もする。やはりbaseとinstructでライセンスは2種類あるとのこと: https://x.com/odashi_t/status/1871508348086214685?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q #Article #Survey #NLP #Dataset #LanguageModel #Evaluation #Repository #OpenWeight #OpenSource Issue Date: 2024-12-02 日本語LLMまとめ, LLM-jp, 2024.12 CommentLLM-jpによる日本語LLM(Encoder-Decoder系, BERT系, Bi-Encoders, Cross-Encodersを含む)のまとめ。
テキスト生成に使うモデル、入力テキスト処理に使うモデル、Embedding作成に特化したモデル、視覚言語モデル、音声言語モデル、日本語LLM評価ベンチマーク/データセットが、汎用とドメイン特化型に分けてまとめられている。
各モデルやアーキテクチャの原論文、学習手法の原論文もまとめられている。すごい量だ…。 #Article #Pocket #NLP #AES(AutomatedEssayScoring) Issue Date: 2024-11-28 国語記述問題自動採点システムの開発と評価, Yutaka Ishii+, 日本教育工学会, 2024.05 #Article #Pretraining #NLP #LanguageModel #OpenWeight Issue Date: 2024-11-25 Sarashina2-8x70Bの公開, SB Intuitions, 2024.11 CommentMoE Layerの説明、Sparse Upcyclingの説明、MoEモデルを学習する際に、学習時の学習率の設定が大きすぎると初期に損失が増大し、小さすぎると損失の増大は防げるがlong runで学習した際の性能向上が小さかったこと、元のモデルのパラメータを毀損しないように、Upcyclingをした元モデルの最終的な学習率を踏襲して学習をし、学習率をさらに減衰させていったこと、などが記載されている。
また、性能評価として同等のactivation parameter数を持つモデルと日本語のQAタスクで比較した結果も載っている。
・1546MoE Layerについては
・1204
も参照のこと #Article #NLP #LanguageModel #OpenWeight Issue Date: 2024-11-09 sarashina2-8x70B, SBIntuitions, 2024.11 Commentプレスリリース:https://www.sbintuitions.co.jp/news/press/20241108_01/・商用利用不可な点には注意
・アーキテクチャは70Bモデルx8のMixture of Experts(MoE)
・モデルカードによると、inferenceにはBF16で、A100 80GB or H100が16基必要っぽいMoEを利用したLLMについては、1204 を参照のこと。 #Article #NLP #LanguageModel #OpenWeight Issue Date: 2024-10-04 Gemma-2-Baku, 2024.10 #Article #NLP #LanguageModel #OpenWeight Issue Date: 2024-10-04 Gemma-2-JPN, 2024.10 Comment日本語データでfinetuningされてGemma2 #Article #NLP #LanguageModel #OpenWeight Issue Date: 2024-09-25 LLM-jp-3 1.8B・3.7B・13B の公開, LLM.jp, 2024.09 CommentLLM-JP-Evalでの評価結果はこちら:https://huggingface.co/llm-jp/llm-jp-3-1.8b1.8Bのモデルが、モデルサイズに対して非常に性能が良いとのこと(確かに、3.8Bのモデルとの差があまりないように見える
元ポスト:https://x.com/odashi_t/status/1838814594514718878?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QアーキテクチャはLlama2とのことなので、vLLMでも動作させられる模様 #Article #NLP #Dataset #LanguageModel Issue Date: 2024-09-25 LLM-jp Corpus v3, LLM.jp, 2024.09 CommentLLM-jp-3 1418 の学習に利用されているコーパス #Article #Embeddings #NLP #LanguageModel #RepresentationLearning Issue Date: 2024-09-04 Ruri: Japanese General Text Embeddings, cl-nagoya, 2024.09 Comment元ツイート:https://x.com/hpp_ricecake/status/1831308092459643232?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q337Mパラメータのモデルで、同等のサイズのモデルをJMTEBで大きく上回る性能。LLMを用いて生成したデータを用いてContrastive Learning, その後高品質なデータでFinetuningを実施したとのこと。JMTEB上では、パラメータサイズ不明(だがおそらく桁違いに大きい)のOpenAI/text-embedding-3-largeと同等の性能に見えるが、1373 などを考慮すると、日本特有の知識を問うQAなどはマルチリンガルなモデルは弱そうなので、その辺がどれほど高い性能を持っているのかは興味がある。
LLMで人工的に生成したデータでは、生成に利用したLLMが持つ知識しか表層的には現れないと思うので何を利用したかによるのと、高品質なラベルデータにその辺がどの程度含まれているか。最大sequence長は1012なので、より長い系列をBERTで埋め込みたい場合はRetrievaBERT 1323 (最大sequence長2048)も検討の余地がある。開発者の方からテクニカルレポートが出た
https://arxiv.org/abs/2409.07737 #Article #Analysis #LanguageModel #OpenWeight #Slide Issue Date: 2024-09-03 LLMに日本語テキストを学習させる意義, Koshiro Saito+, 第261回自然言語処理研究発表会, 2024.08 Comment英日翻訳や日本特有の知識を問われるようなQAにおいて、日本語データによる学習の効果があることが示唆されている模様。
たとえば、1359 に示されている通り、Llama2における日本語データの割合は0.2%とかなので、英語圏のOpenLLMにおいて、日本語データの比率がどれだけ少ないかがわかる。 #Article #NLP #LanguageModel #ProprietaryLLM Issue Date: 2024-08-08 PLaMo-100B, PFN, 2024.08 Comment日本語のベンチマークでGPT4を超える性能を達成。
SFT, DPOで学習。学習データは、Publicなもの、プログラムで作成したもの、LLM自身に作成させたものを利用した。また、最終的なモデルに複数の候補があったのでモデルマージで良いところ取りをした。DPOで利用するpreferenceデータは、事後学習途中のモデルによって自動生成。 #Article #Pretraining #Pocket #NLP #Dataset #LanguageModel #InstructionTuning #Repository Issue Date: 2023-12-11 A Review of Public Japanese Training Sets, shisa, 2023.12