Science


Paper/Blog Link My Issue
#Pocket #NLP #ReinforcementLearning #AIAgents #ScientificDiscovery #Rubric-based Issue Date: 2025-12-31 GPT Summary- AI共同科学者は研究計画を生成するツールとして登場しているが、既存の言語モデルは制約に従った計画生成に苦労している。本研究では、研究論文のコーパスを活用し、研究目標と評価基準を自動抽出して訓練コーパスを構築。自己評価による強化学習を用いてモデルを訓練し、専門家による評価でファインチューニングされたモデルが初期モデルよりも好まれる結果を得た。医療論文へのアプローチ拡張でも改善が見られ、スケーラブルな訓練方法の可能性を示唆している。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…



Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #SpeechProcessing #VideoGeneration/Understandings #VisionLanguageModel #TTS #4D (Video) #TextToVideoGeneration Issue Date: 2025-11-29 GPT Summary- Paper2Videoは、研究論文から学術プレゼンテーション動画を自動生成するための新しいベンチマークとフレームワークを提案。101の研究論文に基づくデータセットを用い、動画生成のための評価指標を設計。PaperTalkerは、スライド生成や字幕、音声合成を統合し、効率的な生成を実現。実験により、提案手法が既存の方法よりも情報量が多く、忠実な動画を生成することを示した。データセットやコードは公開されている。 Comment

pj page: https://showlab.github.io/Paper2Video/

元ポスト:

Loading…

関連:
- [Paper Note] Paper2Poster: Towards Multimodal Poster Automation from Scientific Papers, Wei Pang+, NeurIPS'25, 2025.05




Paper/Blog Link My Issue
#Pocket #NLP #Dataset #LanguageModel #AIAgents #Evaluation #MultiModal #Reasoning #SoftwareEngineering #ComputerUse #read-later #Selected Papers/Blogs #VisionLanguageModel Issue Date: 2025-10-26 GPT Summary- 大規模言語モデル(LLMs)を活用したScienceBoardを紹介。これは、科学的ワークフローを加速するための動的なマルチドメイン環境と、169の厳密に検証されたタスクからなるベンチマークを提供。徹底的な評価により、エージェントは複雑なワークフローでの信頼性が低く、成功率は15%にとどまることが明らかに。これにより、エージェントの限界を克服し、より効果的な設計原則を模索するための洞察が得られる。 Comment

元ポスト:

Loading…

pj gage: https://qiushisun.github.io/ScienceBoard-Home/




Paper/Blog Link My Issue
#Pocket #NLP #Dataset #LanguageModel #Evaluation #read-later #Selected Papers/Blogs #DeepResearch #Live Issue Date: 2025-08-31 GPT Summary- 生成的研究合成の評価のために、DeepScholar-benchというライブベンチマークと自動評価フレームワークを提案。これは、ArXiv論文からクエリを引き出し、関連研究セクションを生成する実際のタスクに焦点を当て、知識合成、検索品質、検証可能性を評価。DeepScholar-baseは強力なベースラインを確立し、他の手法と比較して競争力のあるパフォーマンスを示した。DeepScholar-benchは依然として難易度が高く、生成的研究合成のAIシステムの進歩に重要であることを示す。 Comment

leaderboard: https://guestrin-lab.github.io/deepscholar-leaderboard/leaderboard/deepscholar_bench_leaderboard.html

元ポスト:

Loading…



Paper/Blog Link My Issue
#Pocket #NLP #LanguageModel #OpenWeight #MoE(Mixture-of-Experts) #read-later #VisionLanguageModel Issue Date: 2025-08-23 GPT Summary- Intern-S1は、科学専門分野に特化したオープンソースの専門家型モデルで、280億の活性化パラメータを持つマルチモーダルMixture-of-Experts(MoE)モデルです。5Tトークンで事前学習され、特に科学データに焦点を当てています。事後学習では、InternBootCampを通じて強化学習を行い、Mixture-of-Rewardsを提案。評価では、一般的な推論タスクで競争力を示し、科学分野の専門的なタスクでクローズドソースモデルを上回る性能を達成しました。モデルはHugging Faceで入手可能です。 Comment

元ポスト:

Loading…

scientific domainに特化したデータで継続事前学習+RL Finetuningしたドメイン特化言語モデルらしい。

HF: https://huggingface.co/internlm/Intern-S1

Apache 2.0ライセンス

ベースモデルはQwen3とInternViT
- InternViT: https://huggingface.co/OpenGVLab/InternViT-300M-448px-V2_5

関連:
- [Paper Note] InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks, Zhe Chen+, CVPR'24

解説:

Loading…

サマリ:

Loading…



Paper/Blog Link My Issue
#Pocket #NLP #Dataset #LanguageModel #Evaluation #Reasoning #PostTraining #Contamination-free Issue Date: 2025-07-23 GPT Summary- 科学的推論のためのオープンデータセット「TextbookReasoning」を提案し、65万の推論質問を含む。さらに、125万のインスタンスを持つ「MegaScience」を開発し、各公開科学データセットに最適なサブセットを特定。包括的な評価システムを構築し、既存のデータセットと比較して優れたパフォーマンスを示す。MegaScienceを用いてトレーニングしたモデルは、公式の指示モデルを大幅に上回り、科学的調整におけるスケーリングの利点を示唆。データキュレーションパイプラインやトレーニング済みモデルをコミュニティに公開。 Comment

元ポスト:

Loading…

LLMベースでdecontaminationも実施している模様




Paper/Blog Link My Issue
#Article #NLP #Dataset #LanguageModel #Evaluation #Reasoning #KeyPoint Notes Issue Date: 2025-12-17 Comment

元ポスト:

Loading…

HF: https://huggingface.co/datasets/openai/frontierscience

physics, chemistry, biologyの分野の専門家が作成した問題によって構成されるPh.D levelの新たなscientificドメインのベンチマークとのこと。OlympiadとResearchの2種類のスプリットが存在し、Olympiadは国際オリンピックのメダリストによって設計された100問で構成され回答は制約のある短答形式である一方、Researchは博士課程学生・教授・ポスドク研究者などのPh.Dレベルの人物によって設計された60個の研究に関連するサブタスクによって構成されており、10点満点のルーブリックで採点される、ということらしい。

公式アナウンスではGPT-5.2がSoTAでResearchの性能はまだまだスコアが低そうである。
image