Health
#Pocket
#NLP
#Dataset
#LanguageModel
#Evaluation
#Trustfulness
Issue Date: 2025-08-16 [Paper Note] HealthBench: Evaluating Large Language Models Towards Improved Human Health, Rahul K. Arora+, arXiv'25 GPT Summary- オープンソースのベンチマーク「HealthBench」を発表。5,000件のマルチターン会話を基に、262人の医師による評価基準でモデルの性能と安全性を測定。従来のベンチマークと異なり、48,562のユニークな評価基準を用いて多様な健康コンテキストを評価。GPT-3.5 TurboとGPT-4oの比較で初期の進展を示し、小型モデルの改善が顕著。新たに「HealthBench Consensus」と「HealthBench Hard」の2つのバリエーションもリリース。HealthBenchが健康分野でのモデル開発に寄与することを期待。 #Article #LanguageModel #GenerativeAI #Blog
Issue Date: 2025-10-28 How we are building the personal health coach, Patel+, 2025.10 Comment
Issue Date: 2025-08-16 [Paper Note] HealthBench: Evaluating Large Language Models Towards Improved Human Health, Rahul K. Arora+, arXiv'25 GPT Summary- オープンソースのベンチマーク「HealthBench」を発表。5,000件のマルチターン会話を基に、262人の医師による評価基準でモデルの性能と安全性を測定。従来のベンチマークと異なり、48,562のユニークな評価基準を用いて多様な健康コンテキストを評価。GPT-3.5 TurboとGPT-4oの比較で初期の進展を示し、小型モデルの改善が顕著。新たに「HealthBench Consensus」と「HealthBench Hard」の2つのバリエーションもリリース。HealthBenchが健康分野でのモデル開発に寄与することを期待。 #Article #LanguageModel #GenerativeAI #Blog
Issue Date: 2025-10-28 How we are building the personal health coach, Patel+, 2025.10 Comment
元ポスト:
fitbitユーザなので普通に気になる