Medical

#ComputerVision #Pocket #NLP #Dataset #LanguageModel #Evaluation #MultiModal #Selected Papers/Blogs
Issue Date: 2025-11-26 [Paper Note] MTBBench: A Multimodal Sequential Clinical Decision-Making Benchmark in Oncology, Kiril Vasilev+, arXiv'25, 2025.11 GPT Summary- MTBBenchは、臨床ワークフローの複雑さを反映したマルチモーダル大規模言語モデル(LLMs)のための新しいベンチマークで、腫瘍学の意思決定をシミュレートします。既存の評価が単一モーダルであるのに対し、MTBBenchは異種データの統合や時間に基づく洞察の進化を考慮しています。臨床医によって検証されたグラウンドトゥルースの注釈を用い、複数のLLMを評価した結果、信頼性の欠如や幻覚の発生、データの調和に苦労することが明らかになりました。MTBBenchは、マルチモーダルおよび長期的な推論を強化するツールを提供し、タスクレベルのパフォーマンスを最大9.0%および11.2%向上させることが示されました。 Comment

dataset: https://huggingface.co/datasets/EeshaanJain/MTBBench

元ポスト:

Loading…

> Ground truth annotations are validated by clinicians via a co-developed app, ensuring clinical relevance.

素晴らしい



#ComputerVision #Pocket #NLP #Dataset #LanguageModel #Evaluation #VisionLanguageModel
Issue Date: 2025-10-03 [Paper Note] Radiology's Last Exam (RadLE): Benchmarking Frontier Multimodal AI Against Human Experts and a Taxonomy of Visual Reasoning Errors in Radiology, Suvrankar Datta+, arXiv'25, 2025.09 GPT Summary- 医療画像の解釈におけるAIモデルのパフォーマンスを評価するため、50の専門的な「スポット診断」ケースを用いたベンチマークを開発。5つの最前線AIモデル(GPT-5、o3、Gemini 2.5 Pro、Grok-4、Claude Opus 4.1)をテストした結果、ボード認定放射線医が最高の診断精度(83%)を達成し、AIモデルは最良のGPT-5でも30%に留まった。これにより、AIモデルが難しい診断ケースにおいて放射線医には及ばないことが示され、医療画像におけるAIの限界と無監視使用への警告が強調された。 Comment

元ポスト:

Loading…

所見:

Loading…


#Pocket #NLP #Dataset #LanguageModel #AIAgents #Evaluation
Issue Date: 2025-09-13 [Paper Note] MedBrowseComp: Benchmarking Medical Deep Research and Computer Use, Shan Chen+, arXiv'25 GPT Summary- 大規模言語モデル(LLMs)は臨床意思決定支援に期待されているが、異種の知識ベースを統合する厳格な精度が求められる。既存の評価は実用性が不明確であるため、MedBrowseCompを提案。これは、医療従事者が情報を調整する臨床シナリオを反映した1,000以上の質問を含む初のベンチマークである。最前線のエージェントシステムに適用した結果、パフォーマンス不足が10%に達し、LLMの能力と臨床環境の要求との間に重要なギャップが示された。MedBrowseCompは信頼性の高い医療情報探索のためのテストベッドを提供し、将来のモデル改善の目標を設定する。 Comment

pj page: https://moreirap12.github.io/mbc-browse-app/



#Pocket #NLP #Supervised-FineTuning (SFT) #ReinforcementLearning #Reasoning #PostTraining #GRPO #DeepResearch Issue Date: 2025-09-13 [Paper Note] MedResearcher-R1: Expert-Level Medical Deep Researcher via A Knowledge-Informed Trajectory Synthesis Framework, Ailing Yu+, arXiv'25 GPT Summary- 医療分野に特化した深層研究エージェントを提案。医療知識グラフを用いたデータ合成とカスタム医療検索エンジンを統合し、複雑な質問-回答ペアを生成。新たな医療ベンチマークで最先端の結果を達成し、一般的な深層研究タスクでも競争力を維持。ドメイン特化型の革新が小型モデルの優位性を示す。 Comment

HF: https://huggingface.co/AQ-MedAI

元ポスト:

Loading…

ベンチマーク:
- [Paper Note] MedBrowseComp: Benchmarking Medical Deep Research and Computer Use, Shan Chen+, arXiv'25
- [Paper Note] xbench: Tracking Agents Productivity Scaling with Profession-Aligned Real-World Evaluations, Kaiyuan Chen+, arXiv'25
- GAIA: a benchmark for General AI Assistants, Grégoire Mialon+, N/A, arXiv'23



#NLP #Dataset #LanguageModel #AIAgents #Evaluation #read-later #Biological Issue Date: 2025-09-10 BioML-bench: Evaluation of AI Agents for End-to-End Biomedical ML, Miller+, bioRxiv'25 Comment

元ポスト:

Loading…

Biomedicalドメインにおける24種類の非常に複雑でnuancedな記述や画像の読み取りなどを含む実タスクによって構成される初めてのAgenticベンチマークとのこと。



#Pocket Issue Date: 2025-09-03 [Paper Note] Baichuan-M2: Scaling Medical Capability with Large Verifier System, Baichuan-M2 Team+, arXiv'25 GPT Summary- 医療分野におけるLLMsの実用的応用には、静的ベンチマークと臨床意思決定の間にギャップが存在する。この課題に対処するため、動的検証フレームワークを導入し、患者シミュレーターと臨床ルーブリック生成器を用いて、Baichuan-M2という医療拡張推論モデルを開発。HealthBenchでの評価において、Baichuan-M2は他のモデルを上回り、GPT-5を超えるスコアを達成。研究は、動的検証システムがLLMの臨床応用において重要であることを示す。 Comment

元ポスト: https://huggingface.co/baichuan-inc/Baichuan-M2-32B

元ポスト:

Loading…


#Article #ComputerVision #Transformer #FoundationModel Issue Date: 2025-11-15 How to Train a State-of-the-Art Pathology Foundation Model with $1.6k, Kaplan+, 2025.11 GPT Summary- OpenMidnightは、Midnight病理基盤モデルを再現・改善したもので、12,000枚の全スライド画像を用いて$1.6Kでトレーニングし、複数のベンチマークで最先端の性能を達成。大規模データなしでもトップパフォーマンスが可能であり、トレーニングパイプライン、コード、モデルの重みを公開して研究を促進する。 Comment

HF: https://huggingface.co/SophontAI/OpenMidnight

元ポストより

> The surprising performance of our model points to the challenges of the pathology FM space.
> Performance doesn't seem to scale with compute or dataset size, and for some benchmarks, really simple baselines perform shockingly well.

> In our mind, this indicates both that current models aren't being trained efficiently, and that the current benchmarks are poor.

まだデータセットサイズや計算量に応じてスケールしているようには見えず、現在のモデルが効率的に学習ができてとらず、かつ現在のベンチマークがモデルの性能を適切に測れていないのでは、といった話が記述されている。興味深い。