Health
[Paper Note] HealthBench: Evaluating Large Language Models Towards Improved Human Health, Rahul K. Arora+, arXiv'25
Paper/Blog Link My Issue
#Pocket #NLP #Dataset #LanguageModel #Evaluation #Trustfulness Issue Date: 2025-08-16 GPT Summary- オープンソースのベンチマーク「HealthBench」を発表。5,000件のマルチターン会話を基に、262人の医師による評価基準でモデルの性能と安全性を測定。従来のベンチマークと異なり、48,562のユニークな評価基準を用いて多様な健康コンテキストを評価。GPT-3.5 TurboとGPT-4oの比較で初期の進展を示し、小型モデルの改善が顕著。新たに「HealthBench Consensus」と「HealthBench Hard」の2つのバリエーションもリリース。HealthBenchが健康分野でのモデル開発に寄与することを期待。
How we are building the personal health coach, Patel+, 2025.10
Paper/Blog Link My Issue
#Article #LanguageModel #GenerativeAI #Blog Issue Date: 2025-10-28 Comment
元ポスト:
fitbitユーザなので普通に気になる