AcademicWriting
[Paper Note] BABE: Biology Arena BEnchmark, Junting Zhou+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#NLP #Dataset #LanguageModel #Evaluation #Biological Issue Date: 2026-02-06 GPT Summary- 生物学におけるLLMsの能力を評価するため、BABE(Biology Arena BEnchmark)を導入。これは実験結果を文脈知識と統合する能力を測定し、実世界の研究から構築された複雑な課題を提供。因果推論やスケールを超えた推論を促すことで、AIシステムの科学者としての推論能力を評価するフレームワークを提供し、生物学研究への貢献度を向上させることを目指す。 Comment
元ポスト:
[Paper Note] PaperBanana: Automating Academic Illustration for AI Scientists, Dawei Zhu+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#Multi #ComputerVision #NLP #Dataset #AIAgents #Evaluation #DiffusionModel #VisionLanguageModel #2D (Image) Issue Date: 2026-02-03 GPT Summary- PaperBananaは、学術イラストの自動生成を実現するエージェントフレームワークであり、視覚言語モデルと画像生成モデルを活用しています。専門エージェントを調整して参照を取得し、コンテンツとスタイルを計画、画像をレンダリングし、批評を通じて洗練を行います。PaperBananaBenchを用いた評価では、多様なスタイルの292のテストケースにおいて、忠実性や美的感覚で主要なベースラインを上回る成果を示しました。これにより、高品質な出版準備の整ったイラスト生成が可能となります。 Comment
pj page: https://dwzhu-pku.github.io/PaperBanana/
元ポスト:
[Paper Note] ScholarCopilot: Training Large Language Models for Academic Writing with Accurate Citations, Yubo Wang+, COLM'25
Paper/Blog Link My Issue
#NaturalLanguageGeneration #Citations #NLP #LanguageModel #Supervised-FineTuning (SFT) #COLM Issue Date: 2025-07-08 GPT Summary- ScholarCopilotは、学術的な執筆を支援するために大規模言語モデルを強化したフレームワークで、正確で文脈に関連した引用を生成します。取得トークンを用いて動的に文献を取得し、生成プロセスを補強します。評価では、取得精度が40.1%に達し、生成品質も他のモデルを大幅に上回りました。特に、ScholarCopilotはChatGPTを超える性能を示し、引用の質で100%の好ましさを達成しました。 Comment
元ポスト:
従来のRAGベースのAcademicWriting手法では、まずReferenceを検索して、その内容をcontextに含めてテキストを生成するというSequentialなパイプラインだったが、本研究では通常のNextTokenPrediction Lossに加え、特殊トークン\[RET\]を導入し、ContrastiveLearningによって、\[RET\]トークンがトリガーとなり、生成過程のContextとqueryから適切なReferenceを検索できるEmbeddingを出力し、Referenceを検索し、動的にReferenceの内容をcontextに加え、テキストを生成する手法を提案している。
データセットはarXivからlatex sourceを収集し、bibliography部分からReferenceのタイトルをQwenを用いて抽出。タイトルをarXivおよびSemanticScholarのデータベースと照合し、paperとReferenceの紐付けを実施することで構築している。
GPT-4oによるjudgeの結果、ground truthのcitationを用いた場合には及ばないが、提案手法により品質が向上し、citation retrievalのRecall@Kも大幅に改善している。
Introducing Prism, OpenAI, 2026.01
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #ChatGPT #GenerativeAI #MultiModal #DeepResearch #One-Line Notes Issue Date: 2026-01-29 Comment
デモを見るとdraftをベースに関連研究をdeepresearchしてワンクリックでbibtexにexport, ホワイトボードに描いた図をドラッグ&ドロップして論文に反映などしている。Overleafの競合。
元ポスト:
所見:
ICLR 2026 Acceptance Prediction: Benchmarking Decision Process with A Multi-Agent System, Zhang+, 2026.01
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #Dataset #LanguageModel #AIAgents #Evaluation #MultiModal #ScientificDiscovery #VisionLanguageModel #Live #One-Line Notes Issue Date: 2026-01-20 Comment
元ポスト:
conference paperのpeer reviewに関するベンチマーク。accept/rejectを予測する。papers, reviews, rebuttalsそしてfinal decisionsが紐づけられている。
