Biomedical

#NLP #Dataset #LanguageModel #LLMAgent #Evaluation #read-later
Issue Date: 2025-09-10 BioML-bench: Evaluation of AI Agents for End-to-End Biomedical ML, Miller+, bioRxiv'25 Comment

元ポスト:

<img alt="loading..." src="/assets/images/load-31_128.gif class="tweet-loading" />

Biomedicalドメインにおける24種類の非常に複雑でnuancedな記述や画像の読み取りなどを含む実タスクによって構成される初めてのAgenticベンチマークとのこと。