Science
#Pocket
#NLP
#LanguageModel
#OpenWeight
#MoE(Mixture-of-Experts)
#VisionLanguageModel
Issue Date: 2025-08-23 [Paper Note] Intern-S1: A Scientific Multimodal Foundation Model, Lei Bai+, arXiv'25 SummaryIntern-S1は、科学専門分野に特化したオープンソースの専門家型モデルで、280億の活性化パラメータを持つマルチモーダルMixture-of-Experts(MoE)モデルです。5Tトークンで事前学習され、特に科学データに焦点を当てています。事後学習では、InternBootCampを通じて強化学習を行い、Mixture-of-Rewardsを提案。評価では、一般的な推論タスクで競争力を示し、科学分野の専門的なタスクでクローズドソースモデルを上回る性能を達成しました。モデルはHugging Faceで入手可能です。 Comment元ポスト:https://x.com/iscienceluvr/status/1958894938248384542?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Qscientific domainに特化したデータで継続事前学習+RL Finetuningしたドメイン特化言語モデルらしい。HF:https://huggingface.co/internlm/Intern-S1
Apache 2.0ライセンス
ベースモデルはQwen3とInternViT
・InternViT:https://huggingface.co/OpenGVLab/InternViT-300M-448px-V2_5
関連:
・2529解説:https://x.com/gm8xx8/status/1959222471183225033?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q #Pocket #NLP #Dataset #LanguageModel #Evaluation #Reasoning #PostTraining #Contamination
Issue Date: 2025-07-23 [Paper Note] MegaScience: Pushing the Frontiers of Post-Training Datasets for Science Reasoning, Run-Ze Fan+, arXiv'25 Summary科学的推論のためのオープンデータセット「TextbookReasoning」を提案し、65万の推論質問を含む。さらに、125万のインスタンスを持つ「MegaScience」を開発し、各公開科学データセットに最適なサブセットを特定。包括的な評価システムを構築し、既存のデータセットと比較して優れたパフォーマンスを示す。MegaScienceを用いてトレーニングしたモデルは、公式の指示モデルを大幅に上回り、科学的調整におけるスケーリングの利点を示唆。データキュレーションパイプラインやトレーニング済みモデルをコミュニティに公開。 Comment元ポスト:https://x.com/vfrz525_/status/1947859552407589076?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QLLMベースでdecontaminationも実施している模様
Issue Date: 2025-08-23 [Paper Note] Intern-S1: A Scientific Multimodal Foundation Model, Lei Bai+, arXiv'25 SummaryIntern-S1は、科学専門分野に特化したオープンソースの専門家型モデルで、280億の活性化パラメータを持つマルチモーダルMixture-of-Experts(MoE)モデルです。5Tトークンで事前学習され、特に科学データに焦点を当てています。事後学習では、InternBootCampを通じて強化学習を行い、Mixture-of-Rewardsを提案。評価では、一般的な推論タスクで競争力を示し、科学分野の専門的なタスクでクローズドソースモデルを上回る性能を達成しました。モデルはHugging Faceで入手可能です。 Comment元ポスト:https://x.com/iscienceluvr/status/1958894938248384542?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Qscientific domainに特化したデータで継続事前学習+RL Finetuningしたドメイン特化言語モデルらしい。HF:https://huggingface.co/internlm/Intern-S1
Apache 2.0ライセンス
ベースモデルはQwen3とInternViT
・InternViT:https://huggingface.co/OpenGVLab/InternViT-300M-448px-V2_5
関連:
・2529解説:https://x.com/gm8xx8/status/1959222471183225033?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q #Pocket #NLP #Dataset #LanguageModel #Evaluation #Reasoning #PostTraining #Contamination
Issue Date: 2025-07-23 [Paper Note] MegaScience: Pushing the Frontiers of Post-Training Datasets for Science Reasoning, Run-Ze Fan+, arXiv'25 Summary科学的推論のためのオープンデータセット「TextbookReasoning」を提案し、65万の推論質問を含む。さらに、125万のインスタンスを持つ「MegaScience」を開発し、各公開科学データセットに最適なサブセットを特定。包括的な評価システムを構築し、既存のデータセットと比較して優れたパフォーマンスを示す。MegaScienceを用いてトレーニングしたモデルは、公式の指示モデルを大幅に上回り、科学的調整におけるスケーリングの利点を示唆。データキュレーションパイプラインやトレーニング済みモデルをコミュニティに公開。 Comment元ポスト:https://x.com/vfrz525_/status/1947859552407589076?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QLLMベースでdecontaminationも実施している模様