Poster

#ComputerVision #Pocket #NLP #Dataset #Evaluation #NeurIPS #VisionLanguageModel #One-Line Notes
Issue Date: 2025-11-25 [Paper Note] Paper2Poster: Towards Multimodal Poster Automation from Scientific Papers, Wei Pang+, NeurIPS'25, 2025.05 GPT Summary- 学術ポスター生成のための新しいベンチマークとメトリクスを導入し、PosterAgentというマルチエージェントパイプラインを提案。Parserが論文を構造化し、Plannerがレイアウトを整え、Painter-Commenterが視覚的整合性を確保。評価では、GPT-4oの出力は視覚的には魅力的だが、テキストの質が低く、PaperQuizスコアも不十分であることが判明。オープンソースのバリアントは、既存のシステムを上回り、コスト効率も良好。これにより、次世代の自動ポスター生成モデルの方向性が示された。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

GPT4oは細かい文字のfidelityが低く、視覚的な魅力も小さい(なのでそういったものは学習で補う必要がある)という知見があるとのこと。arXivに投稿された当時結構話題になっていた気がする。

論文だけに留まらず、長いテキストを視覚的に見やすく圧縮する技術は一種の要約として見ることもでき、生成AIによって情報がさらに溢れかえるようになった昨今は、こういった技術はさらに重要な技術になると思われる。