OpenWeightLLM
#ComputerVision#Pocket#NLP#LanguageModel#MulltiModal#AudioProcessing#Video
Issue Date: 2025-03-31 Qwen2.5-Omni Technical Report, Jin Xu+, arXiv25 CommentQwen TeamによるマルチモーダルLLM。テキスト、画像、動画音声をinputとして受け取り、テキスト、音声をoutputする。。スマホにデプロイできるレベルのサイズで、GPT3.5Turbo程度の性能を実現したらしいLlama2と同じブロックを利用しているため、アーキテクチャはLlama2と共通。 ...
Issue Date: 2025-03-31 Qwen2.5-Omni Technical Report, Jin Xu+, arXiv25 CommentQwen TeamによるマルチモーダルLLM。テキスト、画像、動画音声をinputとして受け取り、テキスト、音声をoutputする。。スマホにデプロイできるレベルのサイズで、GPT3.5Turbo程度の性能を実現したらしいLlama2と同じブロックを利用しているため、アーキテクチャはLlama2と共通。 ...
#Pocket#NLP#LanguageModel#OpenSource
Issue Date: 2024-03-05 OLMo: Accelerating the Science of Language Models, Dirk Groeneveld+, N_A, arXiv24 SummaryLMsの商業的重要性が高まる中、最も強力なモデルは閉鎖されており、その詳細が非公開になっている。そのため、本技術レポートでは、本当にオープンな言語モデルであるOLMoの初回リリースと、言語モデリングの科学を構築し研究するためのフレームワークについて詳細に説明している。OLMoはモデルの重みだけでなく、トレーニングデータ、トレーニングおよび評価コードを含むフレームワーク全体を公開しており、オープンな研究コミュニティを強化し、新しいイノベーションを促進することを目指している。 CommentModel Weightsを公開するだけでなく、training/evaluation codeとそのデータも公開する真にOpenな言語モデル(truly Open Language Model)。AllenAI ... #Pocket#NLP#LanguageModel
Issue Date: 2024-01-09 Mixtral of Experts, Albert Q. Jiang+, N_A, arXiv24 SummaryMixtralは、Sparse Mixture of Experts(SMoE)言語モデルであり、各レイヤーが8つのフィードフォワードブロックで構成されています。Mixtralは、トークンごとに2つのエキスパートを選択し、それらの出力を組み合わせます。Mixtralは、Llama 2 70BとGPT-3.5を上回る性能を持ち、数学、コード生成、多言語のベンチマークで特に優れています。また、Mixtral 8x7B Instructという指示に従うモデルも提供されており、人間のベンチマークを凌駕しています。 CommentMixture of experts Layer: inputを受け取ったrouterが、8つのexpertsのうち2つを選択し順伝搬。2つのexpertsのoutputを加重平均することで最終的なoutputとする。の理解に関するベンチマークでLLaVA超え。GenEval, DPG Benchと呼ばれる画 ... #Article#NLP#LanguageModel
Issue Date: 2025-01-21 DeepSeek-R1-Distill-Qwen, DeepSeek, 2025.01 CommentMIT Licence ... #Article#NLP#LanguageModel
Issue Date: 2025-01-21 DeepSeek-R1, DeepSeek, 2025.01 Comment参考:https://x.com/icoxfog417/status/1883339727446974616?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q参考:https://horomary.hatenablog.com/entry/2025/01/26/204545DeepSeek ... #Article#Survey#ComputerVision#NLP#LanguageModel#ProprietaryLLM
Issue Date: 2025-01-02 2024-ai-timeline, reach-vb, 2025.01 Comment月別で2024年にリリースされた主要なLLM(マルチモーダルなLLMも含む)のタイムラインがまとめられている。API Only(プロプライエタリ)なのか、OpenWeightなのかもタグ付けされている。 ... #Article#Pocket#NLP#LanguageModel
Issue Date: 2024-12-28 Deep-seek-v3, deepseek-ai, 2024.12 Comment参考(モデルの図解):https://x.com/vtabbott_/status/1874449446056177717?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q参考:https://x.com/hillbig/status/1876397959841186148?s=46&t= ... #Article#Tools#NLP#Dataset#LanguageModel#Article
Issue Date: 2024-12-24 完全にオープンな約1,720億パラメータ(GPT-3級)の大規模言語モデル 「llm-jp-3-172b-instruct3」を一般公開 ~GPT-3.5を超える性能を達成~ , NII, 2024.12 CommentGPT3.5と同程度のパラメータ数のコーパス、モデル、ツール、全てを公開。学習データまで含めてオープンなモデルとしては世界最大規模とのこと。Instructionチューニング済みのモデルはライセンスを読むと、ライセンスに記述されている内容を遵守すれば、誰でも(日本人なら18歳以上とかはあるが)アクセ ... #Article#NLP#LanguageModel#SpokenLanguageProcessing#OpenSource
Issue Date: 2024-12-13 LLaMA-Omni: Seamless Speech Interaction with Large Language Models, Meta, 2024.09 Comment音声とテキストのOpenSourceマルチモーダルモデル。inputは音声のみ?に見えるが、出力はテキストと音声の両方を実施できる。GPT-4oレベルのspeech capabilityを目指すとaboutに記載されている。興味深い。 installの説明に `Whisper-large-v3#1 ... #Article#NLP#LanguageModel
Issue Date: 2024-12-06 Llama3.3-70B, Meta, 2024.12 Comment3.1-70Bよりも性能向上し、3.1-405Bの性能により近く。(画像は元ポストより引用) ... #Article#Survey#NLP#Dataset#LanguageModel#Evaluation#Repository#Japanese#OpenSource
Issue Date: 2024-12-02 日本語LLMまとめ, LLM-jp, 2024.12 CommentLLM-jpによる日本語LLM(Encoder-Decoder系, BERT系, Bi-Encoders, Cross-Encodersを含む)のまとめ。テキスト生成に使うモデル、入力テキスト処理に使うモデル、Embedding作成に特化したモデル、視覚言語モデル、音声言語モデル、日本語LLM評価 ... #Article#Pretraining#NLP#LanguageModel#Japanese
Issue Date: 2024-11-25 Sarashina2-8x70Bの公開, SB Intuitions, 2024.11 CommentMoE Layerの説明、Sparse Upcyclingの説明、MoEモデルを学習する際に、学習時の学習率の設定が大きすぎると初期に損失が増大し、小さすぎると損失の増大は防げるがlong runで学習した際の性能向上が小さかったこと、元のモデルのパラメータを毀損しないように、Upcyclingをし ... #Article#Survey#NLP#LanguageModel#Article#OpenSource
Issue Date: 2024-11-15 ローカルLLMのリリース年表, npaka, 随時更新, 2024.11 CommentローカルLLMを含むOpenLLMのリリース日が年表としてまとまっており、随時更新されている模様。すごい。 ... #Article#NLP#LanguageModel#Japanese
Issue Date: 2024-11-09 sarashina2-8x70B, SBIntuitions, 2024.11 Commentプレスリリース:https://www.sbintuitions.co.jp/news/press/20241108_01/商用利用不可な点には注意アーキテクチャは70Bモデルx8のMixture of Experts(MoE)モデルカードによると、inferenceにはBF16で、A100 80G ... #Article#NLP#MultiLingual
Issue Date: 2024-10-24 Aya Expanse, Cohere, 2024.10 CommentCohereによるマルチリンガルLLM, 8B, 32Bのモデルが存在する。8BモデルのArenaHardでの評価 ... #Article#NLP
Issue Date: 2024-10-17 Llama-3.1-Nemotron-70B-Instruct, Nvidia, 2024.10 Commentpaper:https://arxiv.org/abs/2410.01257MTBench, Arena HardでGPT4o-20240513,Claude-3.5-sonnet-20240620をoutperform。Response lengthの平均が長いこと模様なので、そもそも同じInputなのでfair comparisonですよ、という話に仮になるのだとしたら、そもそもどういう設定で比較実験 ... #Article#Analysis#LanguageModel#Slide#Japanese
Issue Date: 2024-09-03 LLMに日本語テキストを学習させる意義, Koshiro Saito+, 第261回自然言語処理研究発表会, 2024.08 Comment英日翻訳や日本特有の知識を問われるようなQAにおいて、日本語データによる学習の効果があることが示唆されている模様。たとえば、#1359 に示されている通り、Llama2における日本語データの割合は0.2%とかなので、英語圏のOpenLLMにおいて、日本語データの比率がどれだけ少ないかがわかる。 ... #Article#Tutorial#NLP#LanguageModel#Slide
Issue Date: 2024-08-26 論文紹介 _ The Llama 3 Herd of Models, 2024.08 CommentLlama3の事前学習や事後学習のノウハウが詰まっており(安全性なども含む)、LLM学習に必要な要素が図解されており、非常に分かりやすい。 たとえば下記図(スライド中より引用)などは、LLMの学習過程を説明する際にわかりやすそう  is the latest in Microsoft's family of Small Language Models ... #Article#NLP#Quantization
Issue Date: 2024-08-20 4-bit Llama 3.1, NeuralMagic, 2024.08 #Article#Efficiency/SpeedUp#Library#Article#LLMServing
Issue Date: 2024-08-05 DeepSpeed, vLLM, CTranslate2 で rinna 3.6b の生成速度を比較する, 2024.06 Comment[vllm](https://github.com/vllm-project/vllm)を使うのが一番お手軽で、inference速度が速そう。PagedAttentionと呼ばれるキャッシュを利用して高速化しているっぽい。 (図はブログ中より引用)  。モデルは商用利用可能なA ... #Article#NLP#LanguageModel
Issue Date: 2024-07-03 Llama 3 Swallow #Article#NLP#LanguageModel
Issue Date: 2024-04-18 LLaMA3, Apr, 2024 Commentライセンスによると、LLaMA3を利用したモデルはどんな場合でもLlama3をprefixとして付与しないといけないらしい元ツイート:https://x.com/gneubig/status/1781083579273089442?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QLLaMA ...
#Article#NLP#LanguageModel
Issue Date: 2024-04-10 Mixtral-8x22B-v0.1, 2024 CommentApache-2.0ライセンス, 日本語非対応 ... #Article#NLP#LanguageModel#ProprietaryLLM
Issue Date: 2024-04-10 Command R+, Cohere, 2024 CommentChatbot arenaでGPT-4-0314と同等の Elo Rate を獲得し(20240410時点)、日本語を含む10ヶ国語をサポート。コンテキストウィンドウサイズ128k。商用利用はAPIから、研究目的であればHuggingFaceから利用可能。 ...
#Article#NLP#LanguageModel
Issue Date: 2024-04-08 Gemma: Open Models Based on Gemini Research and Technology, 2024 CommentアーキテクチャはTransformer Decoderを利用。モデルのサイズは2Bと7B。 オリジナルのTransformer Decoderアーキテクチャから、下記改善を実施している: Multi Query Attention #1272 を利用 RoPE Embedding #1Mistral ...
Issue Date: 2024-03-05 OLMo: Accelerating the Science of Language Models, Dirk Groeneveld+, N_A, arXiv24 SummaryLMsの商業的重要性が高まる中、最も強力なモデルは閉鎖されており、その詳細が非公開になっている。そのため、本技術レポートでは、本当にオープンな言語モデルであるOLMoの初回リリースと、言語モデリングの科学を構築し研究するためのフレームワークについて詳細に説明している。OLMoはモデルの重みだけでなく、トレーニングデータ、トレーニングおよび評価コードを含むフレームワーク全体を公開しており、オープンな研究コミュニティを強化し、新しいイノベーションを促進することを目指している。 CommentModel Weightsを公開するだけでなく、training/evaluation codeとそのデータも公開する真にOpenな言語モデル(truly Open Language Model)。AllenAI ... #Pocket#NLP#LanguageModel
Issue Date: 2024-01-09 Mixtral of Experts, Albert Q. Jiang+, N_A, arXiv24 SummaryMixtralは、Sparse Mixture of Experts(SMoE)言語モデルであり、各レイヤーが8つのフィードフォワードブロックで構成されています。Mixtralは、トークンごとに2つのエキスパートを選択し、それらの出力を組み合わせます。Mixtralは、Llama 2 70BとGPT-3.5を上回る性能を持ち、数学、コード生成、多言語のベンチマークで特に優れています。また、Mixtral 8x7B Instructという指示に従うモデルも提供されており、人間のベンチマークを凌駕しています。 CommentMixture of experts Layer: inputを受け取ったrouterが、8つのexpertsのうち2つを選択し順伝搬。2つのexpertsのoutputを加重平均することで最終的なoutputとする。の理解に関するベンチマークでLLaVA超え。GenEval, DPG Benchと呼ばれる画 ... #Article#NLP#LanguageModel
Issue Date: 2025-01-21 DeepSeek-R1-Distill-Qwen, DeepSeek, 2025.01 CommentMIT Licence ... #Article#NLP#LanguageModel
Issue Date: 2025-01-21 DeepSeek-R1, DeepSeek, 2025.01 Comment参考:https://x.com/icoxfog417/status/1883339727446974616?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q参考:https://horomary.hatenablog.com/entry/2025/01/26/204545DeepSeek ... #Article#Survey#ComputerVision#NLP#LanguageModel#ProprietaryLLM
Issue Date: 2025-01-02 2024-ai-timeline, reach-vb, 2025.01 Comment月別で2024年にリリースされた主要なLLM(マルチモーダルなLLMも含む)のタイムラインがまとめられている。API Only(プロプライエタリ)なのか、OpenWeightなのかもタグ付けされている。 ... #Article#Pocket#NLP#LanguageModel
Issue Date: 2024-12-28 Deep-seek-v3, deepseek-ai, 2024.12 Comment参考(モデルの図解):https://x.com/vtabbott_/status/1874449446056177717?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q参考:https://x.com/hillbig/status/1876397959841186148?s=46&t= ... #Article#Tools#NLP#Dataset#LanguageModel#Article
Issue Date: 2024-12-24 完全にオープンな約1,720億パラメータ(GPT-3級)の大規模言語モデル 「llm-jp-3-172b-instruct3」を一般公開 ~GPT-3.5を超える性能を達成~ , NII, 2024.12 CommentGPT3.5と同程度のパラメータ数のコーパス、モデル、ツール、全てを公開。学習データまで含めてオープンなモデルとしては世界最大規模とのこと。Instructionチューニング済みのモデルはライセンスを読むと、ライセンスに記述されている内容を遵守すれば、誰でも(日本人なら18歳以上とかはあるが)アクセ ... #Article#NLP#LanguageModel#SpokenLanguageProcessing#OpenSource
Issue Date: 2024-12-13 LLaMA-Omni: Seamless Speech Interaction with Large Language Models, Meta, 2024.09 Comment音声とテキストのOpenSourceマルチモーダルモデル。inputは音声のみ?に見えるが、出力はテキストと音声の両方を実施できる。GPT-4oレベルのspeech capabilityを目指すとaboutに記載されている。興味深い。 installの説明に `Whisper-large-v3#1 ... #Article#NLP#LanguageModel
Issue Date: 2024-12-06 Llama3.3-70B, Meta, 2024.12 Comment3.1-70Bよりも性能向上し、3.1-405Bの性能により近く。(画像は元ポストより引用) ... #Article#Survey#NLP#Dataset#LanguageModel#Evaluation#Repository#Japanese#OpenSource
Issue Date: 2024-12-02 日本語LLMまとめ, LLM-jp, 2024.12 CommentLLM-jpによる日本語LLM(Encoder-Decoder系, BERT系, Bi-Encoders, Cross-Encodersを含む)のまとめ。テキスト生成に使うモデル、入力テキスト処理に使うモデル、Embedding作成に特化したモデル、視覚言語モデル、音声言語モデル、日本語LLM評価 ... #Article#Pretraining#NLP#LanguageModel#Japanese
Issue Date: 2024-11-25 Sarashina2-8x70Bの公開, SB Intuitions, 2024.11 CommentMoE Layerの説明、Sparse Upcyclingの説明、MoEモデルを学習する際に、学習時の学習率の設定が大きすぎると初期に損失が増大し、小さすぎると損失の増大は防げるがlong runで学習した際の性能向上が小さかったこと、元のモデルのパラメータを毀損しないように、Upcyclingをし ... #Article#Survey#NLP#LanguageModel#Article#OpenSource
Issue Date: 2024-11-15 ローカルLLMのリリース年表, npaka, 随時更新, 2024.11 CommentローカルLLMを含むOpenLLMのリリース日が年表としてまとまっており、随時更新されている模様。すごい。 ... #Article#NLP#LanguageModel#Japanese
Issue Date: 2024-11-09 sarashina2-8x70B, SBIntuitions, 2024.11 Commentプレスリリース:https://www.sbintuitions.co.jp/news/press/20241108_01/商用利用不可な点には注意アーキテクチャは70Bモデルx8のMixture of Experts(MoE)モデルカードによると、inferenceにはBF16で、A100 80G ... #Article#NLP#MultiLingual
Issue Date: 2024-10-24 Aya Expanse, Cohere, 2024.10 CommentCohereによるマルチリンガルLLM, 8B, 32Bのモデルが存在する。8BモデルのArenaHardでの評価 ... #Article#NLP
Issue Date: 2024-10-17 Llama-3.1-Nemotron-70B-Instruct, Nvidia, 2024.10 Commentpaper:https://arxiv.org/abs/2410.01257MTBench, Arena HardでGPT4o-20240513,Claude-3.5-sonnet-20240620をoutperform。Response lengthの平均が長いこと模様なので、そもそも同じInputなのでfair comparisonですよ、という話に仮になるのだとしたら、そもそもどういう設定で比較実験 ... #Article#Analysis#LanguageModel#Slide#Japanese
Issue Date: 2024-09-03 LLMに日本語テキストを学習させる意義, Koshiro Saito+, 第261回自然言語処理研究発表会, 2024.08 Comment英日翻訳や日本特有の知識を問われるようなQAにおいて、日本語データによる学習の効果があることが示唆されている模様。たとえば、#1359 に示されている通り、Llama2における日本語データの割合は0.2%とかなので、英語圏のOpenLLMにおいて、日本語データの比率がどれだけ少ないかがわかる。 ... #Article#Tutorial#NLP#LanguageModel#Slide
Issue Date: 2024-08-26 論文紹介 _ The Llama 3 Herd of Models, 2024.08 CommentLlama3の事前学習や事後学習のノウハウが詰まっており(安全性なども含む)、LLM学習に必要な要素が図解されており、非常に分かりやすい。 たとえば下記図(スライド中より引用)などは、LLMの学習過程を説明する際にわかりやすそう  is the latest in Microsoft's family of Small Language Models ... #Article#NLP#Quantization
Issue Date: 2024-08-20 4-bit Llama 3.1, NeuralMagic, 2024.08 #Article#Efficiency/SpeedUp#Library#Article#LLMServing
Issue Date: 2024-08-05 DeepSpeed, vLLM, CTranslate2 で rinna 3.6b の生成速度を比較する, 2024.06 Comment[vllm](https://github.com/vllm-project/vllm)を使うのが一番お手軽で、inference速度が速そう。PagedAttentionと呼ばれるキャッシュを利用して高速化しているっぽい。 (図はブログ中より引用)  。モデルは商用利用可能なA ... #Article#NLP#LanguageModel
Issue Date: 2024-07-03 Llama 3 Swallow #Article#NLP#LanguageModel
Issue Date: 2024-04-18 LLaMA3, Apr, 2024 Commentライセンスによると、LLaMA3を利用したモデルはどんな場合でもLlama3をprefixとして付与しないといけないらしい元ツイート:https://x.com/gneubig/status/1781083579273089442?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QLLaMA ...
Issue Date: 2024-04-10 Mixtral-8x22B-v0.1, 2024 CommentApache-2.0ライセンス, 日本語非対応 ... #Article#NLP#LanguageModel#ProprietaryLLM
Issue Date: 2024-04-10 Command R+, Cohere, 2024 CommentChatbot arenaでGPT-4-0314と同等の Elo Rate を獲得し(20240410時点)、日本語を含む10ヶ国語をサポート。コンテキストウィンドウサイズ128k。商用利用はAPIから、研究目的であればHuggingFaceから利用可能。 ...
Issue Date: 2024-04-08 Gemma: Open Models Based on Gemini Research and Technology, 2024 CommentアーキテクチャはTransformer Decoderを利用。モデルのサイズは2Bと7B。 オリジナルのTransformer Decoderアーキテクチャから、下記改善を実施している: Multi Query Attention #1272 を利用 RoPE Embedding #1Mistral ...