Healthに関する論文・技術記事メモの一覧

Health

[Paper Note] HealthBench Professional: Evaluating Large Language Models on Real Clinician Chats, Rebecca Soskin Hicks+, arXiv'26, 2026.04

Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #Evaluation #Medical Issue Date: 2026-06-27 GPT Summary- HealthBench Professionalというオープンなベンチマークを通じて、ChatGPTが臨床医の業務支援においてどのように利用されるかを評価。ケア相談、執筆、医療研究の三つの利用ケースに基づいた医師作成の対話がルーブリックで採点され、OpenAIのモデルの難易度や質を測定。特に、意図的な敵対的検証が含まれた例もあり、最も高いスコアを取得したのはGPT-5.4で、多くのモデルや人間の医師を上回る。これにより、医療AIコミュニティが臨床タスクの進展を追跡し、信頼できるシステムの構築を支援することを目指す。 Comment

[Paper Note] HealthBench: Evaluating Large Language Models Towards Improved Human Health, Rahul K. Arora+, arXiv'25, 2025.05

Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #Evaluation #Trustfulness Issue Date: 2025-08-16 GPT Summary- HealthBenchは、医療における大規模言語モデルの性能と安全性を評価するオープンソースのベンチマークで、5,000件のマルチターン対話が含まれています。262名の医師による独自のルーブリックで評価され、緊急事態や臨床データ変換などの医療文脈を考慮し、現実的なオープンエンド評価を行います。過去2年間でGPT-3.5 TurboとGPT-4oに対し、16%および32%の進歩を示し、特に小型モデルでは顕著な改善が見られます。また、医師の合意に基づくHealthBench Consensusと厳しい評価基準を持つHealthBench Hardの2つのバリエーションも公開しています。今後、HealthBenchが人間の健康向上に寄与することが期待されます。